
12.4 フィルタリングとサンプリング 369
で使
われるアプリケーション用に言語モデルを構築していて、その訓練のために Twitter のデータを使うこ
とにする。Twitter のすべてのツイートのうち、英語はわずか 1/3 ほどなので、英語以外の言語をすべてフィ
ルタリングして取り除けば、意味のある分析のために十分なツイートが残る。
フィルタリングは、特殊な形のクリーニングだと考えることができる。フィルタリングでデータを取り除
くのは、データが誤っているからではなく、取り組んでいる案件とは無関係で邪魔になるからである。無関
係なデータや解釈が難しいデータをフィルタリングするためには、アプリケーション固有の知識が必要にな
る。英語はアメリカで使われている主要言語なので、このような形でデータをフィルタリングすることには
間違いなく合理性がある。
しかし、フィルタリングによってバイアスが持ち込まれる。アメリカの人口の 10 % 以上はスペイン語を
話す。アミーゴ、言語モデルは彼らも代表すべきじゃないのかい? 求めている結果を達成するためには、適
切なフィルタリング基準を選択することが大切だ。おそらく、言語ではなく、ツイートした位置に基づいて
ツイートをフィルタリングした方がよいだろう。
これとは対照的に、サンプリング(標本抽出)は、対象領域固有の基準など使わず、適切なサイズの部分
集合を無作為に選ぶことである。よいデータを集めた部分標本を抽出すべき理由はいくつかある。
• 適切なサイズの訓練データ:単純で頑健なモデルは ...