
1.4 分類と回帰 15
は、少数の変数(例えば、年齢、性別、身長、体重、既往症の有無)に基づいて判断(例えば、この
人に生命保険への加入を提案すべきかどうか)を下すことである。
この
種のデータと実際の寿命のデータが 100 万人分あれば、私は保険適用リスクの優れた一般モデル
を構築できる。同じデータが数億人分あっても、これより大幅に優れたモデルは構築できない。少数
の変数(年齢や婚姻状態)に基づく判断基準はそれほど複雑にはならず、膨大な数の申し込みが殺到
しても頑健であり続ける。違いが軽微であるために、分類に膨大なデータが必要な属性は、量を必要
とする大規模なビジネスには無意味だということになる。
ビッグデータは、バッドデータと呼ばれることがある。ビッグデータは、解こうとしている問いに答える
ために意図的に集められるのではなく、システムや手順の副産物として集まってくることが多い。たまたま
持っているデータを意味のあるものにするためには壮絶な働きが必要になることがある。
有権者たちが大統領候補の誰に好感を持っているかを調べる問題について考えてみよう。ビッグデータア
プローチを取れば、テキストに含まれる手がかりを解釈しながら、Twitter や Facebook の膨大なフィードを
分析することになる。スモールデータアプローチを取れば、世論調査として数百人にこのことを尋ね、結果
を表にまとめることになる。どちらの方が正確だと証明されることになるだろうか。正しいデータセットと
は、目の前の課題に最も直接関連しているデータセットであり、必ずしも大きなデータセットではない。 ...