序文
この作品はAIを使って翻訳されている。ご意見、ご感想をお待ちしている:translation-feedback@oreilly.com
Sparkの初版へようこそ:本書は、Apache Spark 2.0に導入された新世代のSpark APIに焦点を当てた、現在最も充実したリソースである!Spark 2.0で導入された新世代のSpark APIを中心に、Apache Sparkに関する最も完全なリソースをお届けできることを嬉しく思う。
Apache Spark は現在、大規模データ処理のための最も人気のあるシステムの1つで、複数のプログラミング言語によるAPIと、豊富な組み込みライブラリやサードパーティライブラリを備えている。このプロジェクトは、最初は2009年にカリフォルニア大学バークレー校で開始された研究プロジェクトとして、その後2013年からはApache Software Foundationで開始された研究プロジェクトとして、複数年にわたって存在しているが、オープンソースコミュニティはSparkの上に、より強力なAPIと高レベルのライブラリを構築し続けているため、このプロジェクトについて書くべきことはまだたくさんある。私たち 、2つの理由からこの本を書くことにした。第一に、Apache Sparkに関する最も包括的な本を紹介し、実行しやすい例で基本的なユースケースをすべてカバーしたかった。第二に、Apache Spark 2.0で最終化された、より高度な "構造化 "API-名前付けDataFrames、データセット、Spark SQL、構造化ストリーミング-を特に探求したかった。本書が、Apache Sparkプロジェクトで利用可能なすべてのツールを使って最新のApache Sparkアプリケーションを書くための強固な基礎となることを願っている。
この序文では、私たちの経歴を少しお話しし、本書が誰のためのもので、どのように資料を構成したかを説明する。また、本書の編集と校閲にご協力いただいた多くの方々に感謝申し上げる。
著者について
本書の著者は2人ともApache Sparkに長く携わってきた。
ビル・チェンバースは2014年にいくつかの研究プロジェクトでSparkを使い始めた。現在、ビルはDatabricks社のプロダクト・マネージャーとして、ユーザが様々なタイプのApache Sparkアプリケーションを書けるようにすることに注力している。また、Sparkについて定期的にブログを書いたり、カンファレンスやミートアップで発表したりしている。カリフォルニア大学バークレー校情報学部で情報管理およびシステムの修士号を取得。
マテイ・ザハリアは、カリフォルニア大学バークレー校の博士課程に在籍していた2009年にSparkプロジェクトを開始した。マテイは、他のバークレーの研究者や外部の協力者とともに、SparkのコアAPIを設計し、Sparkコミュニティを成長させ、構造化APIやStructured Streamingなどの新しいイニシアチブに関わり続けている。2013年、マテイとバークレーSparkチームの他のメンバーは、オープンソースプロジェクトをさらに成長させ、その周辺に商用サービスを提供するためにDatabricksを共同設立した。現在、マテイはDatabricksのチーフ・テクノロジストとして働き続ける傍ら、スタンフォード大学のコンピューターサイエンス助教授として大規模システムとAIの研究を行っている。マテイは2013年にカリフォルニア大学バークレー校でコンピューターサイエンスの博士号を取得した。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access