
1.2 データについての興味深い問い 11
計算すると、
例えば話者が「that’s too bad」と言ったのか「that’s to bad」と言ったのかが判定しやすくなり
(前者は非常によく使われるフレーズだが、後者は文法的にあり得ない)、音声認識システムの改良に役立
つ。この数百万冊もの本は、代表的なモデルを構築するためのデータセットとして大いに活用できる。
1.2.4 ニューヨークのタクシー運行記録
日々の金融取引のすべては、必ずあとにデータの痕跡を残す。これをたどっていくと、面白い知見が得ら
れる。
タクシーは、都市交通網の重要な構成要素である。タクシーは、街路を流して客を探し、指示された目的
地に客を運ぶ。料金は、移動距離に比例する。個々のタクシーには、時間の関数としての料金を計算する
メーターも備えられている。タクシーのメーターは記録作成装置となり、運転手が適切な料金を請求してい
ることを保証するメカニズムとしても機能する。
現在、ニューヨークのタクシーに備え付けられたメーターは、料金計算だけでなく、さまざまなことがで
きる。クレジットカード端末があり、客はキャッシュレスで料金を支払える。また、GPS(global positioning
system)と連携しており、すべての乗車、降車位置を正確に記録している。そして、無線ネットワークでつ
ながっているため、中央のサーバにこれらすべてのデータを送ることができる。
その結果、世界で最も大きな都市を走るすべてのタクシーの全運行記録を保存する巨大