
362 12 章 ビッグデータ:スケールを追求
た MapReduce ジョブという形でバックエンド処理をすべて書き換えようとした。
そして、我々がニュース記事と注釈を表現するために使っていた特殊なファイル形式も置き換えた。この
形式はよくバグを起こし、あちらこちらに例外が含まれていた。構文解析プログラム(パーサ)はたびたび
信じられない理由でエラーを起こした。構造化データを厳密に表現し、市販ツールで効率良く構文解析する
た
めに XML が発明されたのはそのためだ。彼のコードを通るテキストは、まず XML 検証ソフトを通過す
る。彼は NLP 分析を行う問題だらけの Perl スクリプトには手を触れようとせず、システムの他の部分から
十分隔離して、問題がその部分だけに制限されるようにした。
可動部品が非常に多かったため、Mikhail でさえ、インフラの修正に少し時間をかけなければならなかっ
た。インフラの入れ替えを行うため、Mikhail の作業が行うまで、我々は他のプロジェクトに進めなくなっ
た。実験的な分析が一切できないことで私がイライラしていると、Mikhail は静かにヘッジファンドからの
保留中の内定のことを持ち出して私を牽制し、自分の作業を続けた。
そしてもちろん、Mikhail が正しかった。新しいインフラによって、できることが 10 倍になった。ダウ
ンタイムは大幅に減り、電源が落ちたあとのデータベースの修復作業は必要なくなった。データアクセスを
制御するために Mikhail が開発した ...