
12.2 私の体験談から:インフラの重要性 361
経営
コンサルタントたちは、第 4 の V として、土台のデータをどの程度信用できるかという意味の正確
さ(veracity)を挙げることもある。正確さには、スパムの除去、データ収集過程に起因する中間生成物の
除去などが含まれ、通常のクリーニングのレベルを超える配慮が必要になる。
12.2 私の体験談から:インフラの重要性
Mikhail が眉をひそめたその表情から、彼の落胆の深さを気付くべきだった。
私が指導していた博士課程の院生、Mikhail Bautin は、おそらく私が出会った中で最も優れたプログラマ
だ。たぶん、誰にとってもそうだろう。何しろ、第 12 回国際情報オリンピックで満点優勝し、高校レベル
のプログラマとして世界一になったことがあるのだから。
その当時、取り組んでいたニュース分析プロジェクト Lydia は、かなり大掛かりなインフラを持ち、膨大
な数のマシンを使っていた。Lydia では、世界中のニュースソースから集めたテキストを正規化し、我々が
英語用に書いた自然言語処理(NLP)パイプラインを通過させて、実体を抽出し、テキストからそれらの実
体に対する感情を判断し、大きなデータベースに結果を格納する、という処理を行っていた。SQL コマン
ドを使えば、Lydia で処理を行ったデータは、ウェブページに表示したりスプレッドシートで操作できる形
式に変換できた。
私は、検出できる感情が機械翻訳でどの程度維持されるかを研究したいと思っていた。十分に維持される ...