データサイエンス講義

Book description

コロンビア大学のデータサイエンス入門講義をベースとした本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例とともに紹介します。Google、Microsoft、Facebookをはじめとした有名企業で使われているアルゴリズムや分析手法の紹介など、興味深い話題や事例を豊富に収録。幅広い解説で、データサイエンティストの参考になるトピックが満載の一冊です。

Table of contents

  1.  大扉
  2.  原書大扉
  3.  クレジット
  4.   
  5.  訳者まえがき
  6.  まえがき
  7.   モチベーション
  8.   講義の背景
  9.   この本の背景
  10.   この本から何が得られるか
  11.   この本の構成
  12.   この本の読み方
  13.   この本でのコードの使い方
  14.   この本の対象読者
  15.   前提としている知識
  16.   参考文献
  17.   この本への貢献者の方々について
  18.   本書の表記法
  19.   コード例の使用
  20.   ご意見とご質問
  21.   謝辞
  22.  第1章 はじめに:データサイエンスとは
  23.   1.1 ビッグデータとデータサイエンスの過剰喧伝
  24.   1.2 過剰喧伝を克服する
  25.   1.3 なぜいまなのか
  26.    1.3.1 データ化
  27.   1.4 現状(および多少の歴史)
  28.    1.4.1 データサイエンスの仕事
  29.   1.5 データサイエンスプロフィール
  30.   1.6 思考実験:メタ定義
  31.   1.7 データサイエンティストとは本当は何か
  32.    1.7.1 学術界
  33.    1.7.2 産業界
  34.  第2章 統計的推論、探索的データ分析、データサイエンスのプロセス
  35.   2.1 ビッグデータ時代の統計的思考
  36.    2.1.1 統計的推論
  37.    2.1.2 母集団と標本
  38.    2.1.3 ビッグデータの母集団と標本
  39.    2.1.4 ビッグデータの大きな仮定
  40.    2.1.5 モデル
  41.   2.2 探索的データ分析
  42.    2.2.1 探索的データ分析の理念
  43.    2.2.2 演習問題:EDA
  44.   2.3 データサイエンスのプロセス
  45.    2.3.1 データサイエンスのプロセスにおけるデータサイエンティストの役割
  46.   2.4 思考実験:混沌(カオス)をどのようにシミュレートするか?
  47.   2.5 ケーススタディ:RealDirect
  48.    2.5.1 RealDirectはどのように収益を得ているか
  49.    2.5.2 演習問題:RealDirectのデータ戦略
  50.  第3章 アルゴリズム
  51.   3.1 機械学習アルゴリズム
  52.   3.2 3つの基本アルゴリズム
  53.    3.2.1 線形回帰
  54.    3.2.2 k近傍法
  55.    3.2.3 k平均法
  56.   3.3 演習問題:基本的な機械学習アルゴリズム
  57.    3.3.1 解答例
  58.   3.4 まとめ
  59.   3.5 思考実験:自動統計学者
  60.  第4章 スパムフィルタ、単純ベイズ、データラングリング
  61.   4.1 思考実験:スパムフィルタの例から学ぶ
  62.    4.1.1 なぜ線形回帰でスパムフィルタを構築できないのか
  63.    4.1.2 k近傍法でスパムフィルタを構築できるか
  64.   4.2 単純ベイズ
  65.    4.2.1 ベイズの法則
  66.    4.2.2 1つの単語に対するスパムフィルタ
  67.    4.2.3 複数の単語を組み合わせたスパムフィルタ:単純ベイズ
  68.   4.3 ラプラススムージング
  69.   4.4 単純ベイズとk近傍法の比較
  70.   4.5 bashによるサンプルコード
  71.   4.6 ウェブスクレイピング:APIとその他のツール
  72.   4.7 ジェイクによる演習問題:単純ベイズによる記事の分類
  73.    4.7.1 ニューヨークタイムズAPIを使ったRのサンプルコード
  74.  第5章 ロジスティック回帰
  75.   5.1 思考実験
  76.   5.2 分類器
  77.    5.2.1 実行時間
  78.    5.2.2 自分自身
  79.    5.2.3 解釈のしやすさ
  80.    5.2.4 スケーラビリティ
  81.   5.3 M6Dにおけるロジスティック回帰の事例研究
  82.    5.3.1 クリックのモデル
  83.    5.3.2 基礎となる数学
  84.    5.3.3 αとβの推定
  85.    5.3.4 ニュートン法
  86.    5.3.5 確率的勾配降下法
  87.    5.3.6 実装
  88.    5.3.7 評価
  89.   5.4 M6Dの演習問題
  90.    5.4.1 Rのサンプルコード
  91.  第6章 タイムスタンプと金融モデリング
  92.   6.1 カイル・テーグとGetGlue
  93.   6.2 タイムスタンプ
  94.    6.2.1 探索的データ分析
  95.    6.2.2 指標と新しい変数や特徴
  96.    6.2.3 次にすべきこと
  97.   6.3 キャシー・オニール
  98.   6.4 思考実験
  99.   6.5 金融モデリング
  100.    6.5.1 サンプル内、サンプル外と因果関係
  101.    6.5.2 金融データの前処理
  102.    6.5.3 対数収益率
  103.    6.5.4 例:S&P株式指数
  104.    6.5.5 ボラティリティ(不安定さ)を測定する
  105.    6.5.6 指数関数的な重みの減少
  106.    6.5.7 金融モデリングのフィードバックループ
  107.    6.5.8 なぜ回帰なのか
  108.    6.5.9 事前値に加算する
  109.    6.5.10 生まれたてのモデル
  110.   6.6 演習問題:GetGlueとタイムスタンプ付きイベントデータ
  111.    6.6.1 演習問題:金融データ
  112.  第7章 データから意味を抽出する
  113.   7.1 ウィリアム・キュキエスキ
  114.    7.1.1 背景:データサイエンスのコンペティション
  115.    7.1.2 背景:クラウドソーシング
  116.   7.2 Kaggleのモデル
  117.    7.2.1 Kaggleでの競技者
  118.    7.2.2 Kaggleの顧客
  119.   7.3 思考実験:ロボット評価者が示す道徳上の意味
  120.   7.4 特徴選択
  121.    7.4.1 例:ユーザの定着率
  122.    7.4.2 フィルタ
  123.    7.4.3 ラッパー
  124.    7.4.4 組み込み:決定木
  125.    7.4.5 エントロピー
  126.    7.4.6 決定木のアルゴリズム
  127.    7.4.7 決定木における連続値変数の扱い
  128.    7.4.8 ランダムフォレスト
  129.    7.4.9 ユーザの定着率:理解しやすさvs.予測力
  130.   7.5 ディビッド・ハファッカー:ソーシャル研究へのGoogleのハイブリッドなアプローチ
  131.    7.5.1 記述的から予測的へ
  132.    7.5.2 Googleにおけるソーシャル
  133.    7.5.3 プライバシー
  134.    7.5.4 思考実験:懸念点を減らし理解とコントロールを増やすための最良の方法とは?
  135.  第8章 レコメンデーションエンジン:ユーザが直接触れる大規模データ製品を構築する
  136.   8.1 現実世界でのレコメンデーションエンジン
  137.    8.1.1 最近傍法を振り返る
  138.    8.1.2 最近傍法の問題点
  139.    8.1.3 最近傍法を越えて:機械学習による分類
  140.    8.1.4 次元の問題
  141.    8.1.5 特異値分解
  142.    8.1.6 SVDの重要な特徴
  143.    8.1.7 主成分分析
  144.    8.1.8 最小二乗法の代替
  145.    8.1.9 Vを固定してUを更新する
  146.    8.1.10 3つのアルゴリズムについての最後の考察
  147.   8.2 思考実験:バブルを検出する
  148.   8.3 演習問題:レコメンデーションシステムの構築
  149.    8.3.1 Pythonのサンプルコード
  150.  第9章 データ可視化と不正検出
  151.   9.1 データ可視化の歴史
  152.    9.1.1 ガブリエル・タルド
  153.    9.1.2 マークの思考実験
  154.   9.2 データサイエンスとは何か、再び
  155.    9.2.1 Processing
  156.    9.2.2 フランコ・モレッティ
  157.   9.3 データ可視化プロジェクトの例
  158.   9.4 マークのデータ可視化プロジェクト
  159.    9.4.1 ニューヨークタイムズのロビー:Moveable Type
  160.    9.4.2 プロジェクトCascade:画面上でのライブ
  161.    9.4.3 クロンカイトプラザ
  162.    9.4.4 eBay取引と書籍
  163.    9.4.5 パブリックシアターのシェイクスピアマシン
  164.    9.4.6 これらの展示の目的
  165.   9.5 データサイエンスとリスク
  166.    9.5.1 Square社について
  167.    9.5.2 リスクに対する取り組み
  168.    9.5.3 性能推定における問題点
  169.    9.5.4 モデル構築のヒント
  170.   9.6 Square社でのデータ可視化
  171.   9.7 イアンの思考実験
  172.   9.8 その他の人々にとってのデータ可視化
  173.    9.8.1 データ可視化の演習問題
  174.  第10章 ソーシャルネットワークとデータジャーナリズム
  175.   10.1 Morningside Analyticsでのソーシャルネットワーク分析
  176.    10.1.1 ケース属性データvs.ソーシャルネットワークデータ
  177.   10.2 ソーシャルネットワーク分析
  178.   10.3 ソーシャルネットワーク由来の専門用語
  179.    10.3.1 中心性の尺度
  180.    10.3.2 中心性の業界
  181.   10.4 思考実験
  182.   10.5 Morningside Analytics
  183.    10.5.1 可視化によって魚の群れを特定する方法
  184.   10.6 統計学的視点から見たソーシャルネットワーク分析の深い背景
  185.    10.6.1 ネットワークの表現と固有ベクトル中心性
  186.    10.6.2 ランダムグラフの1つ目の例:Erdos-Renyiモデル
  187.    10.6.3 ランダムグラフの2つ目の例:指数ランダムグラフ
  188.   10.7 データジャーナリズム
  189.    10.7.1 データジャーナリズムの歴史
  190.    10.7.2 技術ジャーナリズムの執筆:専門家からのアドバイス
  191.  第11章 因果関係
  192.   11.1 相関関係は因果関係を含意しない
  193.    11.1.1 因果関係に関する問い
  194.    11.1.2 交絡因子:出会い系サイトの例
  195.   11.2 OkCupidの試み
  196.   11.3 ゴールドスタンダード:無作為化臨床試験
  197.   11.4 A/B テスト
  198.   11.5 次善策:観察研究
  199.    11.5.1 シンプソンのパラドックス
  200.    11.5.2 ルービンの因果モデル
  201.    11.5.3 因果関係の可視化
  202.    11.5.4 因果効果の定義
  203.   11.6 3つのアドバイス
  204.  第12章 疫学
  205.   12.1 マディガンの経歴
  206.   12.2 思考実験
  207.   12.3 現在の学術的な統計
  208.   12.4 医療文献と観察研究
  209.   12.5 層別化は交絡問題を解決しない
  210.    12.5.1 実際に交絡因子に関して行われていること
  211.   12.6 よい方法は存在するのか
  212.   12.7 調査実験(医薬の影響効果の組合せ観察)
  213.   12.8 思考実験の終了
  214.  第13章 データ分析のコンペティションから得られた教訓:データのリークとモデルの評価
  215.   13.1 データサイエンティストクラウディアのプロフィール
  216.    13.1.1 チーフデータサイエンティストの生涯
  217.    13.1.2 女性のデータサイエンティストであるということ
  218.   13.2 データマイニングコンペティション
  219.   13.3 よいモデル作成者になる方法
  220.   13.4 データのリーク
  221.    13.4.1 市場予測
  222.    13.4.2 Amazonの事例:高額購入者の予測
  223.    13.4.3 宝石購入者のサンプリングに関する問題
  224.    13.4.4 IBMの顧客ターゲティング
  225.    13.4.5 乳がんの検出
  226.    13.4.6 肺炎患者の予測
  227.   13.5 データのリークを回避する方法
  228.   13.6 モデルの評価
  229.    13.6.1 正確度:退屈な話
  230.    13.6.2 それは確率の問題であり、0と1ではない
  231.   13.7 アルゴリズムの選択
  232.   13.8 最後の例
  233.   13.9 最後に
  234.  第14章 データエンジニアリング:MapReduce、Pregel、Hadoop
  235.   14.1 ディビッド・クローショーについて
  236.   14.2 思考実験
  237.   14.3 MapReduce
  238.   14.4 単語頻度の問題
  239.    14.4.1 MapReduceの導入
  240.   14.5 MapReduceを使う他の例
  241.    14.5.1 MapReduceでできないこと
  242.   14.6 Pregel
  243.   14.7 ジョシュ・ウィルズについて
  244.   14.8 思考実験
  245.   14.9 データサイエンティストであること
  246.    14.9.1 データの豊富さをとるか、価値のある希少なデータだけを残すか
  247.    14.9.2 モデルの設計
  248.   14.10 経済面での落としどころ:Hadoop
  249.    14.10.1 Hadoopの簡単な紹介
  250.    14.10.2 Cloudera
  251.   14.11 ジョシュのワークフロー
  252.   14.12 Hadoopを使い始めるには
  253.  第15章 生徒たちの声
  254.   15.1 プロセスに関する思考
  255.   15.2 もはや単純(Naive)ではない
  256.   15.3 救いの手
  257.   15.4 道のりは変化する
  258.   15.5 橋渡しされたトンネル
  259.   15.6 成果物の一例
  260.  第16章 次世代のデータサイエンティスト、データに対する過信と倫理
  261.   16.1 今まさに起きていること
  262.   16.2 データサイエンスの定義について再考する
  263.   16.3 次世代のデータサイエンティストとは
  264.    16.3.1 問題を解決する人物であること
  265.    16.3.2 精神的な性質を磨くこと
  266.    16.3.3 疑問を持つ人になる
  267.   16.4 倫理的なデータサイエンティストであること
  268.   16.5 キャリアに対するアドバイス
  269.  著者紹介
  270.  奥付

Product information

  • Title: データサイエンス講義
  • Author(s): Rachel Schutt, Cathy O'Neil, 瀬戸山 雅人, 石井 弓美子, 河内 崇, 河内 真理子, 古畠 敦, 木下 哲也, 竹田 正和, 佐藤 正士, 望月 啓充
  • Release date: October 2014
  • Publisher(s): O'Reilly Japan, Inc.
  • ISBN: 9784873117010

You might also like

book

プログラミングRust

by Jim Blandy, Jason Orendorff, 中田 秀基

RustはMozilla財団の支援下で開発が進められており、Mozillaの次世代ブラウザエンジンの実装にも用いられているシステムプログラミング用言語です。C/C++並みのパフォーマンスと低レベルなメモリ操作機能、型システムを用いたメモリとスレッドの安全性を両立し、さらに安全な並列性も実現した、いま最も注目されている言語です。このRustをテーマにした本書は、Rust特有の所有権、移動、借用といった概念だけでなく、生産性と柔軟性を向上させるジェネリックコード、クロージャ、イテレータ、コレクションといった高度な機能についても詳しい説明を加えており、言語仕様から高度なプログラミング技術までを網羅した決定版です。

book

ユーザーストーリーマッピング

by Jeff Patton, 川口 恭伸, 長尾 高弘

本書はユーザーストーリーマッピングの作者、ジェフ・パットンが自ら開発した手法について書き下ろした書籍です。ストーリーマッピングの概要、優れたストーリーマッピングを作るためのコンセプトから、ユーザーストーリーを完全に理解する方法、ストーリーのライフサイクルの認識、イテレーションやライフサイクルごとにストーリーを使う方法まで、手法全体を包括的に解説します。製品開発、UXデザイン、業務要件定義の現場で、関係者が共通理解を持ち、使いやすく・実現可能なサービスや商品を作りたいと考えているすべての人、必携の一冊です。

book

プロダクションレディマイクロサービス ―運用に強い本番対応システムの実装と標準化

by Susan J. Fowler, 佐藤 直生, 長尾 高弘

UberのSRE(サイト信頼性エンジニア、サイトリライアビリティエンジニア)として、マイクロサービスの本番対応向上を担当していた著者が、その取り組みから得られた知見をまとめたものです。モノリス(一枚岩)を複数のマイクロサービスに分割した後に、安定性、信頼性、スケーラビリティ、耐障害性、パフォーマンス、監視、ドキュメント、大惨事対応を備えたシステムにするために必要な原則と標準に焦点を当て、本番対応力のあるマイクロサービスを構築する手法を紹介します。本書で採用している原則と標準は、マイクロサービスだけなく多くのサービスやアプリケーションの改善にも威力を発揮します。

book

スクラム実践者が知るべき97のこと

by Gunther Verheyen, 吉羽 龍太郎, 原田 騎郎, 永瀬 美穂

アジャイル開発手法のなかで最もよく使われる手法の1つがスクラムです。スクラムは、複雑な問題に取り組むためのシンプルなフレームワークであり、シンプルであるがゆえに実践には要所を押さえるスキルが必要になります。本書は、世界中で活躍するスクラム専門家が自らの経験と知見に基づいて執筆したエッセイ集です。スクラム適用の戦略、スクラムで進める上での戦術やパターン、さまざまな職種のコラボレーション、組織への影響などについて幅広い視点で紹介します。日本語版では、及部 敬雄、小林 恭平(kyon_mm)、高橋 一貴、長沢 智治、平鍋 健児、安井 力(やっとむ)、和田 卓人、永瀬 美穂、原田 騎郎、吉羽 龍太郎による10本の書下ろしを収録。