初めてのSpark

by Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia, Sky株式会社玉川竜司

Released August 2015

Publisher(s): O'Reilly Japan, Inc.

ISBN: 9784873117348

Start your free trial

Book description

Sparkの概要、RDDを使ったプログラミング、キー／値ペアの処理など基礎的な説明から、Sparkの高度なプログラミング、クラスタ上での本格的な利用まで解説した、Sparkの総合的な入門書です。日本語版の内容にはバージョン1.3/1.4での機能強化も取り入れ、土橋昌氏による「原書発行以降の変更点」、猿田浩輔氏による「Spark SQLについて本編の補足」、堀越保徳氏と濱口智大氏による「Spark/MapReduceの機械学習ライブラリ比較検証」を収録。全編にわたりCloudera株式会社エンジニアチームによるテクニカルレビューを実施。

Product information

Title: 初めてのSpark
Author(s): Holden Karau, Andy Konwinski, Patrick Wendell, Matei Zaharia, Sky株式会社玉川竜司
Release date: August 2015
Publisher(s): O'Reilly Japan, Inc.
ISBN: 9784873117348

book

Python機械学習クックブック

by Chris Albon, 中田秀基

Pythonによる機械学習を進める上で、頻繁に遭遇すると思われる200超の問題とその解決策を紹介。データ構造（ベクトル、行列、配列）、数値データ、カテゴリデータ、テキスト、画像、日時データの取り扱いといったデータ分析の基本から、特徴量抽出、次元削減、モデルの評価と選択、線形回帰、決定木、ランダムフォレスト、k-最近傍法、SVM、ナイーブベイズ、クラスタリング、ニューラルネットワーク、訓練済みモデルのセーブとロードなど、幅広い内容をカバー。巻末に日本語版付録「日本語テキストの取り扱い」を収録。「やりたいこと」「困っていること」に答えてくれる一冊です。

book

ハイパフォーマンスPython

by Micha Gorelick, Ian Ozsvald, 相川愛三

Pythonの高速化技法について一歩踏み込んだプロユースの解説書。ボトルネックの測定方法から、最適なデータ構造の使い分け、CythonやPyPyなどのコンパイラの比較、numpyなどのパッケージの使い方、マルチコアCPUの活用法、メモリ効率を劇的に改善するトライ構造や近似計算まで、シンプルな実例プログラムを用いながらわかりやすく説明します。高性能なプログラムの書き方だけでなく、高性能なシステムの作り方を総合的に学ぶことができるPythonエキスパート必携の一冊です。

book

機械学習による実用アプリケーション構築 ―事例を通じて学ぶ、設計から本番稼働までのプロセス

by Emmanuel Ameisen, 菊池彰

機械学習は翻訳、推薦システム、異常および不正検出など、さまざまなアプリケーションで利用されています。しかし機械学習はモデルの学習や評価など、これまでのアプリケーションにはない処理が必要となるだけでなく、正常に動作しているかを単純なテストだけでは検証できないなど、特別な配慮が必要となります。本書は機械学習を利用するアプリケーションを設計、構築、デプロイするために注意すべき点をまとめました。繰り返しによりデータやモデルを漸進的に改善する方法、モデル性能の監視やモデルのデバッグを行う方法など、アプリケーションを構築、運用する上で、その品質を左右する一連のプロセスを詳しく解説します。

book

グラフデータベース ―Neo4jによるグラフデータモデルとグラフデータベース入門

by Ian Robinson, Jim Webber, Emil Eifrem, 佐藤直生, 木下哲也

SNSの普及や相互依存性の高いデータの増加に伴い、従来型のリレーショナルデータモデルの処理効率の問題を解決するために登場し、近年使われるようになったのが、「グラフデータモデル」です。本書ではこのグラフデータモデルと、このモデルを使ったグラフデータベースについて、グラフデータベースの代表的な存在であるNeo4jを使って解説。Neo4jの中心的な開発者たちによる執筆のため信頼性が高く、また、実例も随所に織り込まれ実用性も高いものとなっています。内部アーキテクチャについてもていねいに書かれており、なぜリレーショナルデータモデルよりもグラフデータモデルの方がグラフ処理に適しているのかを理解できるでしょう。

初めてのSpark

Book description

Table of contents

Product information

You might also like

Python機械学習クックブック

ハイパフォーマンスPython

機械学習による実用アプリケーション構築 ―事例を通じて学ぶ、設計から本番稼働までのプロセス

グラフデータベース ―Neo4jによるグラフデータモデルとグラフデータベース入門

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly