アジャイルデータサイエンス ―スケーラブルに構築するビッグデータアプリケーション

Book description

本書は、データの収集・集約・解析・レポート化をアジャイルに行うアプリケーションを構築するための考え方と方法を解説します。Python、Apache Pig、D3.jsライブラリのような軽量ツールを使い、データマイニングを行うためのサンプルアプリケーションを作成します。データを解析するためのアジャイルな環境を作る方法やツールの組み合わせ方などを解説し、さらに行いたい解析やデータの特性によって解析の手段を変更できるようにする方法も学びます。日本語版では付録として「Fluentdによるログの収集」と「Elasticsearch + Kibanaによるログの可視化」を追加。

Table of contents

  1. 訳者まえがき
  2. はじめに (1/3)
  3. はじめに (2/3)
  4. はじめに (3/3)
  5. 1章 理論
    1. 1.1 アジャイルビッグデータ
    2. 1.2 重要な用語の定義
    3. 1.3 アジャイルビッグデータに取り組むチーム
      1. 1.3.1 機会と課題の認識
      2. 1.3.2 変化への適応
    4. 1.4 アジャイルビッグデータのプロセス
    5. 1.5 コードレビューとペアプログラミング
    6. 1.6 アジャイルな環境:エンジニアリングの生産性
      1. 1.6.1 コラボレーション空間
      2. 1.6.2 プライベート空間
      3. 1.6.3 パーソナル空間
    7. 1.7 大判のプリントアウトによるアイデアの実現
  6. 2章 データ
    1. 2.1 メール
    2. 2.2 生のデータでの作業
      1. 2.2.1 生のメール
      2. 2.2.2 構造化データと半構造化データ
    3. 2.3 SQL
    4. 2.4 NoSQL
      1. 2.4.1 シリアライゼーション
      2. 2.4.2 スキーマの進化の過程での特徴の抽出と公開
      3. 2.4.3 データパイプライン
    5. 2.5 データに対する視点
      1. 2.5.1 ネットワーク
      2. 2.5.2 時系列
      3. 2.5.3 自然言語
      4. 2.5.4 確率
    6. 2.6 まとめ
  7. 3章 アジャイルなツール群
    1. 3.1 スケーラビリティ = 単純さ
    2. 3.2 アジャイルビッグデータの処理
    3. 3.3 Pythonの仮想環境(virtualenv)のセットアップ
    4. 3.4 Avroを利用したイベントのシリアライズ
      1. 3.4.1 Avro for Python
    5. 3.5 データの収集
    6. 3.6 Pigを使ったデータ処理
      1. 3.6.1 Pigのインストール
    7. 3.7 MongoDBへのデータ展開
      1. 3.7.1 MongoDBのインストール
      2. 3.7.2 MongoDBのJavaドライバのインストール
      3. 3.7.3 mongo-hadoopのインストール
      4. 3.7.4 PigからMongoDBへのデータ送信
    8. 3.8 ElasticSearchによるデータの検索
      1. 3.8.1 インストール
      2. 3.8.2 ElasticSearchとWonderdog付きのPig
    9. 3.9 ワークフローへの反映
    10. 3.10 軽量なWebアプリケーション
      1. 3.10.1 PythonとFlask
    11. 3.11 データのプレゼンテーション
      1. 3.11.1 Bootstrapのインストール
    12. 3.12 Bootstrapのブート
      1. 3.12.1 D3.jsとnvd3.jsによるデータのビジュアライズ
    13. 3.13 まとめ
  8. 4章 クラウドへ!
    1. 4.1 イントロダクション
    2. 4.2 GitHub
    3. 4.3 dotCloud
      1. 4.3.1 dotCloudでのecho
      2. 4.3.2 Python workers
    4. 4.4 Amazon Web Services
      1. 4.4.1 Simple Storage Service
      2. 4.4.2 Elastic MapReduce
    5. 4.5 MongoDB as a Service
    6. 4.6 道具立て
      1. 4.6.1 Google Analytics
      2. 4.6.2 Mortar Data (1/2)
      3. 4.6.2 Mortar Data (2/2)
  9. 5章 レコードの収集と表示
    1. 5.1 まとめ上げる
    2. 5.2 Inboxの収集とシリアライズ
    3. 5.3 メールの処理と展開
    4. 5.4 ブラウザでのメールの表示
      1. 5.4.1 Flaskとpymongoを使ったメールの提供
      2. 5.4.2 Jinja2によるHTML5のレンダリング
    5. 5.5 アジャイルのチェックポイント
    6. 5.6 メールのリスト表示
      1. 5.6.1 MongoDBを使ったメールのリスト表示
      2. 5.6.2 プレゼンテーションの解剖学 (1/2)
      3. 5.6.2 プレゼンテーションの解剖学 (2/2)
    7. 5.7 メールの検索
      1. 5.7.2 Web上でのメールの検索
    8. 5.8 まとめ
  10. 6章 グラフを使ったデータのビジュアライズ
    1. 6.1 優れたグラフ
    2. 6.2 エンティティの取り出し:メールアドレス
      1. 6.2.1 メールの抽出
    3. 6.3 時間のビジュアライズ (1/2)
    4. 6.3 時間のビジュアライズ (2/2)
    5. 6.4 まとめ
  11. 7章 レポートによるデータの探求
    1. 7.1 複数のグラフを持つレポートの構築
    2. 7.2 レコード同士のリンク (1/2)
    3. 7.2 レコード同士のリンク (2/2)
    4. 7.3 TF-IDFを利用したメールからのキーワードの抽出 (1/2)
    5. 7.3 TF-IDFを利用したメールからのキーワードの抽出 (2/2)
    6. 7.4 まとめ
  12. 8章 予測
    1. 8.1 メールへの返信率の予測
    2. 8.2 パーソナライズ
    3. 8.3 まとめ
  13. 9章 アクションの促進
    1. 9.1 成功するメールの特徴
    2. 9.2 単純ベイズ法による予測の向上
    3. 9.3 P(Reply | From & To)
    4. 9.4 P(Reply | Token)
    5. 9.5 リアルタイムの予測
    6. 9.6 イベントのロギング
    7. 9.7 まとめ
  14. 付録A Fluentdによるログの収集
    1. A.1 前提
    2. A.2 Fluentdとは
    3. A.3 Fluentdのインストール
      1. A.3.1 EC2インスタンスの起動
      2. A.3.2 td-agentによるインストール
      3. A.3.3 Fluentdの起動と停止
      4. A.3.4 その他のインストール方法
    4. A.4 Fluentdの設定ファイル
      1. A.4.1 sourceディレクティブ
      2. A.4.2 matchディレクティブ
      3. A.4.3 tag
      4. A.4.4 ルーティング
    5. A.5 アクセスログをS3にアップロード
      1. A.5.1 Apacheのインストール
      2. A.5.2 in_tailインプットプラグイン
      3. A.5.3 out_s3アウトプットプラグイン
      4. A.5.4 設定ファイルの再読み込みと動作確認
      5. A.5.5 out_s3アウトプットプラグイン詳細
      6. A.5.6 バッファプラグイン
    6. A.6 アプリケーションログをS3に転送
      1. A.6.1 in_forwardインプットプラグイン
      2. A.6.2 fluent-logger-rubyによるログの入力
    7. A.7 /etc/td-agent/td-agent.confに
      1. A.7.1 fluent-plugin-tdプラグイン
      2. A.7.2 debug_agentプラグイン
    8. A.8 最後に
  15. 付録B Elasticsearch + Kibanaによるログの可視化
    1. B.1 Elasticsearchとは
    2. B.2 Kibanaとは
    3. B.3 前提
    4. B.4 準備
    5. B.5 Kibanaのインストール
    6. B.6 Kibanaの設定
    7. B.7 Kibanaの使い方
      1. B.7.1 Query
      2. B.7.2 Dashboardのカスタマイズ
    8. B.8 まとめ
  16. 索引 (1/2)
  17. 索引 (2/2)

Product information

  • Title: アジャイルデータサイエンス ―スケーラブルに構築するビッグデータアプリケーション
  • Author(s): Russell Jurney, Sky株式会社 玉川 竜司
  • Release date: April 2014
  • Publisher(s): O'Reilly Japan, Inc.
  • ISBN: 9784873116716

You might also like

book

ハイパフォーマンス ブラウザネットワーキング ―ネットワークアプリケーションのためのパフォーマンス最適化

by Ilya Grigorik, 和田 祐一郎/株式会社プログラミングシステム社

現代のアプリケーションエンジニアは、UIやデータ処理、開発言語、プラットフォームの仕様や癖だけでなく、サーバやネットワークについても、上から下まで、表から裏まで広く知ることを求められます。本書は「ブラウザ」に関連し、インターネットで使用されるさまざまなネットワーク技術をまとめたものです。HTTP/2.0やWebRTCなどの最新技術、WebSocketやXMLHttpRequestなどのブラウザAPI、そしてそれらの土台となるTCPやUDPやトランスポート層についてまでを幅広くカバーします。また改善前後の性能・速さを可能な限り具体化し、それぞれの場面においてのパフォーマンス改善幅を示します。

book

大規模データ管理 ―エンタープライズアーキテクチャのベストプラクティス

by Piethein Strengholt, 村上 列

データ管理と統合が急速に進化する中、複雑で緊密に結合したアーキテクチャから、現代のビジネスに対応できる、より柔軟なデータアーキテクチャへの移行が求められます。 本書は、変化が激しい時代でも長期的に持続可能な方法で大規模なデータ管理を行い、さまざまなユースケースに対応できる統合アーキテクチャを紹介します。この統合アーキテクチャを構成する、膨大なデータ利用に向けた「読み出し専用データストアアーキテクチャ」、リアルタイムなアプリケーションのための「APIアーキテクチャ」、大容量のスループットを実現する「ストリーミングアーキテクチャ」を詳述します。また技術開発、法規制、プライバシーに関する懸念など、データ管理全体を説明し、データガバナンスとセキュリティ、マスターデータ管理、セルフサービスとデータマーケットプレイス、メタデータの重要性について解説します。 企業のデータ戦略にかかわる本書は、アーキテクトはもちろん、経営者、ガバナンスチーム、データ分析・エンジニアリングチーム必携の一冊です。

book

プロダクトマネジメント ―ビルドトラップを避け顧客に価値を届ける

by Melissa Perri, 吉羽 龍太郎

本書は、顧客に価値を届けるプロダクトを作り出すプロダクトマネジメントについて学ぶ本です。プロダクトマネジメントを理解することで、企業がビジネス目標を達成しながら、顧客の課題を解決する方法を解説します。はじめにプロダクトマネージャーの役割と責任を定義し、優れた意思決定を促す戦略の立て方を紹介します。実験と最適化によって作るべきプロダクトを決めるプロセスを解説し、最後にプロダクト主導の組織を支えるための文化や方針を紹介します。ビルドトラップを避け、顧客の課題にフォーカスするプロダクトマネジメントの原則を解説する本書は、規模の大小を問わずすべてのプロダクトチーム、マネージャー、プログラマ、アーキテクト、デザイナ、マーケターに必携の一冊です。

book

マイクロインタラクション ―UI/UXデザインの神が宿る細部

by Dan Saffer, 武舎 広幸, 武舎 るみ

UIのディテールをほんの少し工夫するだけでUXは劇的に改善します。本書では効果的なマイクロインタラクション――ひとつの作業だけをこなす最小単位のインタラクション――の意味、有効性、デザイン手法を学びます。マイクロインタラクションを「トリガー」「ルール」「フィードバック」「ループとモード」に分解して豊富な実例とともにていねいに解説し、さらにプロトタイプやドキュメント作成、テストといった実践的な手法も紹介します。マイクロインタラクションを活用すれば、ありふれた製品も顧客を引きつける魅力的な製品に生まれ変わらせることができます。ドナルド・ノーマン推薦書!