
358 12 章 ビッグデータ:スケールを追求
理解することは大切である。その規模のデータを操作するプロジェクトで戦力になるためには、そのような
理解が欠かせない。
12.1 ビッグデータとは
どれくらい大きければ「ビッグ」なのだろうか。どんな数字を示しても書いた途端に時代遅れになってし
まう
だろうが、たまたま見かけた 2016 年の統計(主に https://www.internetlivestats.com/)によれ
ば、「ビッグ」とは次のような数字である。
• Twitter:毎日 6 億ツイート
• Facebook:16 億人のアクティブユーザから毎日 600 TB のデータ
• Google:毎日 35 億の検索要求
• Instagram:毎日 5200 万枚の新しい写真
• Apple:全部で 1300 億件のアプリダウンロード
• Netflix:毎日 1 億 2500 万時間分のテレビ、映画のストリーミング
• メール:毎日 2050 億件のメッセージ
サイズは重要だ。これだけのデータがあれば、すばらしいことができる。しかし、ほかにも大切なも
のはある。この節では、ビッグデータの処理についての技術的概念的な複雑さについて考えてみたい。
今後の課題
一般に
、ビッグデータは少数の列(特徴)を持つ膨大な数の行(レコード)から構成されている。
つまり、ビッグデータは、与えられた問題に正確に合う 1 つのモデルを作るためには大げさすぎ
る。一般に、ビッグデータの価値を感じるのは、個々のユーザ専用のカスタムモデルを ...