Book description
Sparkの概要、RDDを使ったプログラミング、キー/値ペアの処理など基礎的な説明から、Sparkの高度なプログラミング、クラスタ上での本格的な利用まで解説した、Sparkの総合的な入門書です。日本語版の内容にはバージョン1.3/1.4での機能強化も取り入れ、土橋昌氏による「原書発行以降の変更点」、猿田浩輔氏による「Spark SQLについて本編の補足」、堀越保徳氏と濱口智大氏による「Spark/MapReduceの機械学習ライブラリ比較検証」を収録。全編にわたりCloudera株式会社エンジニアチームによるテクニカルレビューを実施。
Table of contents
- はじめに
- 日本語版まえがき
- まえがき (1/3)
- まえがき (2/3)
- まえがき (3/3)
- 1章 Sparkによるデータ分析への招待
- 2章 Sparkのダウンロードと起動
- 3章 RDDを使ったプログラミング
- 4章 キー/値ペアの処理
- 5章 データのロードとセーブ
- 6章 Sparkの高度なプログラミング
- 7章 クラスタでの動作
- 8章 Sparkのチューニングとデバッグ
- 9章 Spark SQL
- 10章 Spark Streaming
- 11章 MLlibを使った機械学習
- 付録A 原書発行以降の変更点
- 付録B Spark SQLについて本編の補足
- 付録C Spark/MapReduceの機械学習ライブラリ比較検証
- 索引 (1/2)
- 索引 (2/2)
Product information
- Title: 初めてのSpark
- Author(s):
- Release date: August 2015
- Publisher(s): O'Reilly Japan, Inc.
- ISBN: 9784873117348
You might also like
book
Python機械学習クックブック
Pythonによる機械学習を進める上で、頻繁に遭遇すると思われる200超の問題とその解決策を紹介。データ構造(ベクトル、行列、配列)、数値データ、カテゴリデータ、テキスト、画像、日時データの取り扱いといったデータ分析の基本から、特徴量抽出、次元削減、モデルの評価と選択、線形回帰、決定木、ランダムフォレスト、k-最近傍法、SVM、ナイーブベイズ、クラスタリング、ニューラルネットワーク、訓練済みモデルのセーブとロードなど、幅広い内容をカバー。巻末に日本語版付録「日本語テキストの取り扱い」を収録。「やりたいこと」「困っていること」に答えてくれる一冊です。
book
ハイパフォーマンスPython
Pythonの高速化技法について一歩踏み込んだプロユースの解説書。ボトルネックの測定方法から、最適なデータ構造の使い分け、CythonやPyPyなどのコンパイラの比較、numpyなどのパッケージの使い方、マルチコアCPUの活用法、メモリ効率を劇的に改善するトライ構造や近似計算まで、シンプルな実例プログラムを用いながらわかりやすく説明します。高性能なプログラムの書き方だけでなく、高性能なシステムの作り方を総合的に学ぶことができるPythonエキスパート必携の一冊です。
book
機械学習による実用アプリケーション構築 ―事例を通じて学ぶ、設計から本番稼働までのプロセス
機械学習は翻訳、推薦システム、異常および不正検出など、さまざまなアプリケーションで利用されています。しかし機械学習はモデルの学習や評価など、これまでのアプリケーションにはない処理が必要となるだけでなく、正常に動作しているかを単純なテストだけでは検証できないなど、特別な配慮が必要となります。本書は機械学習を利用するアプリケーションを設計、構築、デプロイするために注意すべき点をまとめました。繰り返しによりデータやモデルを漸進的に改善する方法、モデル性能の監視やモデルのデバッグを行う方法など、アプリケーションを構築、運用する上で、その品質を左右する一連のプロセスを詳しく解説します。
book
グラフデータベース ―Neo4jによるグラフデータモデルとグラフデータベース入門
SNSの普及や相互依存性の高いデータの増加に伴い、従来型のリレーショナルデータモデルの処理効率の問題を解決するために登場し、近年使われるようになったのが、「グラフデータモデル」です。本書ではこのグラフデータモデルと、このモデルを使ったグラフデータベースについて、グラフデータベースの代表的な存在であるNeo4jを使って解説。Neo4jの中心的な開発者たちによる執筆のため信頼性が高く、また、実例も随所に織り込まれ実用性も高いものとなっています。内部アーキテクチャについてもていねいに書かれており、なぜリレーショナルデータモデルよりもグラフデータモデルの方がグラフ処理に適しているのかを理解できるでしょう。