14章データエンジニアリング：MapReduce、Pregel、Hadoop

この章は2人の貢献者、ディビッド・クローショー（David Crawshar）とジョシュ・ウィルズ（Josh Wills）による内容です。レイチェルはGoogleのGoogle+データサイエンスチームでこの2人とともに働きました。実際には、ジョシュ・ウィルズがClouderaへ転職し、入れ替わるようにディビッド・クローショーが技術主査として入ったので2人が一緒に働いたことはありません。彼ら2人のことは「データエンジニア」と呼びます。「データエンジニア」は「データサイエンティスト」と同じくらい問題がある（もしくは多くの意味合いが込められた）呼び名かもしれませんが、ソフトウェアエンジニアとして働いており、大量のデータを扱っていたことを十分に表現しています。2章のデータサイエンスプロセスで言えば、ジョシュとディビッドはGoogleでデータの収集（フロントエンドとバックエンドのログ収集）、データ蓄積および変形を行う大量データのパイプライン、エンジニアリング基盤の構築に責任を持っていました。その基盤は分析、ダッシュボード、A/Bテスト、より広く言えばデータサイエンスをサポートしていました。

この章ではGoogleのエンジニアからMapReduceについて直に話を聞くことができます。MapReduceはGoogleで開発され、後にオープンソース版が他の場所で作られました。MapReduceは大量のデータを扱うためのアルゴリズムとフレームワークです。大量のデータの扱いは、最近では業界で一般的になっています。この章の目的はMapReduceを取り巻く神秘を幾分明らかにすることです。MapReduceはご存知のとおりバズワード化しており、データサイエンティストの多くの求人広告に「Hadoop（MapReduceのオープンソース実装）を知っていること」と書かれています。MapReduceをうまく使える箇所や、 ...

Get データサイエンス講義 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

データサイエンス講義 by Rachel Schutt, Cathy O'Neil, 瀬戸山雅人, 石井弓美子, 河内崇, 河内真理子, 古畠敦, 木下哲也, 竹田正和, 佐藤正士, 望月啓充

14章データエンジニアリング：MapReduce、Pregel、Hadoop

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly