14章データエンジニアリング:MapReduce、Pregel、Hadoop

この章は2人の貢献者、ディビッド・クローショー(David Crawshar)とジョシュ・ウィルズ(Josh Wills)による内容です。レイチェルはGoogleのGoogle+データサイエンスチームでこの2人とともに働きました。実際には、ジョシュ・ウィルズがClouderaへ転職し、入れ替わるようにディビッド・クローショーが技術主査として入ったので2人が一緒に働いたことはありません。彼ら2人のことは「データエンジニア」と呼びます。「データエンジニア」は「データサイエンティスト」と同じくらい問題がある(もしくは多くの意味合いが込められた)呼び名かもしれませんが、ソフトウェアエンジニアとして働いており、大量のデータを扱っていたことを十分に表現しています。2章のデータサイエンスプロセスで言えば、ジョシュとディビッドはGoogleでデータの収集(フロントエンドとバックエンドのログ収集)、データ蓄積および変形を行う大量データのパイプライン、エンジニアリング基盤の構築に責任を持っていました。その基盤は分析、ダッシュボード、A/Bテスト、より広く言えばデータサイエンスをサポートしていました。

この章ではGoogleのエンジニアからMapReduceについて直に話を聞くことができます。MapReduceはGoogleで開発され、後にオープンソース版が他の場所で作られました。MapReduceは大量のデータを扱うためのアルゴリズムとフレームワークです。大量のデータの扱いは、最近では業界で一般的になっています。この章の目的はMapReduceを取り巻く神秘を幾分明らかにすることです。MapReduceはご存知のとおりバズワード化しており、データサイエンティストの多くの求人広告に「Hadoop(MapReduceのオープンソース実装)を知っていること」と書かれています。MapReduceをうまく使える箇所や、 ...

Get データサイエンス講義 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.