13章データ分析のコンペティションから得られた教訓:データのリークとモデルの評価

この章の貢献者はクラウディア・ペルリッヒ(Claudia Perlich)です。クラウディアは数年前から、Media 6 Degrees(M6D、http://m6d.com)のチーフ・サイエンティストを務めています。それ以前は、IBMのデータ解析グループに所属していました。このグループはWatsonを開発し、Jeopardy!†1で優勝を果たしたグループです(彼女自身はそのプロジェクトにかかわってはいませんでしたが)。クラウディアは計算機科学の修士号を持っており、またニューヨーク大学で情報システムの博士号を取得しました。彼女は現在、経営学専攻の学生にデータサイエンスを教えるクラスを持っており、そこではデータサイエンティストのマネジメント方法とその仕事の評価について教えています。

[†1] 訳注:米国のクイズ番組。

クラウディアはまた、データマイニングのコンペティションで何度も優勝したことでも有名で、2003年、2007年、2008年、2009年のKDDカップ、2005年のILPチャレンジ 、2008年のINFORMSチャレンジ 、2010年のKaggleなどのコンペティションで優勝を果たしています。

最近では彼女はコンペティションの運営側に回っており、2009年のINFORMSチャレンジを皮切りとして、2011年のHeritage Health賞も担当しました。クラウディアはコンペティションからの現役引退を表明していますが、幸いなことに、彼女の講義ではデータ解析のコンペティションから学んだ優れた知見のいくつかについて授業が行われました。多数のコンペティションの経験を通して彼女が特に多くを学んだのは、データのリークと、課題に応じたモデルの評価方法についてでした。 ...

Get データサイエンス講義 now with O’Reilly online learning.

O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.