357
12 章
ビッグデータ:スケールを追求
量の変化は必然的に質の変化も伴う。
— フリードリヒ・エンゲルス
以前、テレビ番組の取材を受けた際、データとビッグデータの違いを尋ねられたことがある。私はしばら
く考えた上で、「サイズです」と言った。この答えは今も正しいと考えている。
イ
ディッシュ語には、「取るに足りない」という意味の「bupkis」というすばらしい単語がある。「He got
paid bupkis for it」(彼がその仕事で得た報酬は取るに足らない額だった)のように使う。これは、報酬の額
が雀の涙だったことに対する不満である。
一般に、本書でこれまで扱ってきたデータの量は、すべて「bupkis」だった。人手でラベル付けされた訓
練セットが数十万件規模のデータ例のもとで実行されることはあるが、その作業の報酬を人間に支払わな
ければならない場合、100 万件を超えると予算的に厳しくなる。1.6 節で取り上げたニューヨークのすべて
のタクシーの数年間にわたる運行記録には、8,000 万件ものレコードがあった。かなりの数だが、それでも
これは「bupkis」の範囲内だ。この程度のデータならノート PC に簡単に保存できるし、ファイル全体をス
キャンして、数分程度で表を作成できる。
ビッグデータというバズワードはそろそろ時代遅れだが、本当に膨大なデータセットの分析を想定してい
る。「ビッグ」の意味は時間とともに変わるが、現時点では、1 テラバイト前後からが基準になるだろう。
これは予想よりも大したことのない数字かもしれない。本稿執筆時点では、テラバイト規模のディスクは
たった 100 ドル前後で買える。大した出費ではない。しかし、このディスクに入りきらないほどの意味のあ
るデータを獲得するためには、ちょっとした主導権が必要である。おそらく大手インターネット企業や動画 ...