7章データから意味を抽出する
企業は所有しているデータからどのようにして意味を抽出しているのでしょうか。
この章では、この質問について2人から話を聞き、それぞれの人の異なるアプローチの方法を確認していきます。その2人は、Kaggle†1のウィリアム・キュキエスキ(William Cukierski)氏とGoogleのディビッド・ハファッカー(David Huffaker)氏です。
[†1] 訳注:データサイエンティストのコミュニティで、データ分析に課題を抱える企業に対してソリューションの提供を行っている。
7.1 ウィリアム・キュキエスキ
ウィルは、コーネル大学で物理学の学士を取得し、ラトガース大学で生物医学工学の博士過程に行きました。がん研究を専門にし、病状画像の研究をしていました。論文を書きながら、彼は次第にKaggleのコンペティションに参加するようになり(Kaggleのコンペティションについての詳細はKaggleを確認してください)、複数のコンペティションでほぼトップの成果を出しました。そして、現在はKaggleで仕事をしています。
この章の前半では、データサイエンスにおけるコンペティションと、クラウドソーシングについての背景知識を説明した後、このKaggleのプラットフォームの参加者や大きなコミュニティのために、Kaggleという企業がどのような仕事をしているかをウィルが説明してくれます。
その後のウィルの説明は、特徴抽出や特徴選択に着目していきます。特徴抽出を簡単に説明すると、保有する生データをまるごと持ってきて、それを注意深く整理し、「ごみを入れればごみしか出てこない」†2状態を避けることです。もし、生のデータを深く考えずに何らかのアルゴリズムに適用してしまうと、そのような悪い状態を避けられないでしょう。特徴選択とは、データの部分集合やデータの写像を作成し、モデルやアルゴリズムに使うべき予測変数を特定するようなプロセスです。 ...
Get データサイエンス講義 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.