Book description
コロンビア大学のデータサイエンス入門講義をベースとした本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例とともに紹介します。Google、Microsoft、Facebookをはじめとした有名企業で使われているアルゴリズムや分析手法の紹介など、興味深い話題や事例を豊富に収録。幅広い解説で、データサイエンティストの参考になるトピックが満載の一冊です。
Table of contents
- 大扉
- 原書大扉
- クレジット
- 訳者まえがき
- まえがき
- モチベーション
- 講義の背景
- この本の背景
- この本から何が得られるか
- この本の構成
- この本の読み方
- この本でのコードの使い方
- この本の対象読者
- 前提としている知識
- 参考文献
- この本への貢献者の方々について
- 本書の表記法
- コード例の使用
- ご意見とご質問
- 謝辞
- 第1章 はじめに:データサイエンスとは
- 1.1 ビッグデータとデータサイエンスの過剰喧伝
- 1.2 過剰喧伝を克服する
- 1.3 なぜいまなのか
- 1.3.1 データ化
- 1.4 現状(および多少の歴史)
- 1.4.1 データサイエンスの仕事
- 1.5 データサイエンスプロフィール
- 1.6 思考実験:メタ定義
- 1.7 データサイエンティストとは本当は何か
- 1.7.1 学術界
- 1.7.2 産業界
- 第2章 統計的推論、探索的データ分析、データサイエンスのプロセス
- 2.1 ビッグデータ時代の統計的思考
- 2.1.1 統計的推論
- 2.1.2 母集団と標本
- 2.1.3 ビッグデータの母集団と標本
- 2.1.4 ビッグデータの大きな仮定
- 2.1.5 モデル
- 2.2 探索的データ分析
- 2.2.1 探索的データ分析の理念
- 2.2.2 演習問題:EDA
- 2.3 データサイエンスのプロセス
- 2.3.1 データサイエンスのプロセスにおけるデータサイエンティストの役割
- 2.4 思考実験:混沌(カオス)をどのようにシミュレートするか?
- 2.5 ケーススタディ:RealDirect
- 2.5.1 RealDirectはどのように収益を得ているか
- 2.5.2 演習問題:RealDirectのデータ戦略
- 第3章 アルゴリズム
- 3.1 機械学習アルゴリズム
- 3.2 3つの基本アルゴリズム
- 3.2.1 線形回帰
- 3.2.2 k近傍法
- 3.2.3 k平均法
- 3.3 演習問題:基本的な機械学習アルゴリズム
- 3.3.1 解答例
- 3.4 まとめ
- 3.5 思考実験:自動統計学者
- 第4章 スパムフィルタ、単純ベイズ、データラングリング
- 4.1 思考実験:スパムフィルタの例から学ぶ
- 4.1.1 なぜ線形回帰でスパムフィルタを構築できないのか
- 4.1.2 k近傍法でスパムフィルタを構築できるか
- 4.2 単純ベイズ
- 4.2.1 ベイズの法則
- 4.2.2 1つの単語に対するスパムフィルタ
- 4.2.3 複数の単語を組み合わせたスパムフィルタ:単純ベイズ
- 4.3 ラプラススムージング
- 4.4 単純ベイズとk近傍法の比較
- 4.5 bashによるサンプルコード
- 4.6 ウェブスクレイピング:APIとその他のツール
- 4.7 ジェイクによる演習問題:単純ベイズによる記事の分類
- 4.7.1 ニューヨークタイムズAPIを使ったRのサンプルコード
- 第5章 ロジスティック回帰
- 5.1 思考実験
- 5.2 分類器
- 5.2.1 実行時間
- 5.2.2 自分自身
- 5.2.3 解釈のしやすさ
- 5.2.4 スケーラビリティ
- 5.3 M6Dにおけるロジスティック回帰の事例研究
- 5.3.1 クリックのモデル
- 5.3.2 基礎となる数学
- 5.3.3 αとβの推定
- 5.3.4 ニュートン法
- 5.3.5 確率的勾配降下法
- 5.3.6 実装
- 5.3.7 評価
- 5.4 M6Dの演習問題
- 5.4.1 Rのサンプルコード
- 第6章 タイムスタンプと金融モデリング
- 6.1 カイル・テーグとGetGlue
- 6.2 タイムスタンプ
- 6.2.1 探索的データ分析
- 6.2.2 指標と新しい変数や特徴
- 6.2.3 次にすべきこと
- 6.3 キャシー・オニール
- 6.4 思考実験
- 6.5 金融モデリング
- 6.5.1 サンプル内、サンプル外と因果関係
- 6.5.2 金融データの前処理
- 6.5.3 対数収益率
- 6.5.4 例:S&P株式指数
- 6.5.5 ボラティリティ(不安定さ)を測定する
- 6.5.6 指数関数的な重みの減少
- 6.5.7 金融モデリングのフィードバックループ
- 6.5.8 なぜ回帰なのか
- 6.5.9 事前値に加算する
- 6.5.10 生まれたてのモデル
- 6.6 演習問題:GetGlueとタイムスタンプ付きイベントデータ
- 6.6.1 演習問題:金融データ
- 第7章 データから意味を抽出する
- 7.1 ウィリアム・キュキエスキ
- 7.1.1 背景:データサイエンスのコンペティション
- 7.1.2 背景:クラウドソーシング
- 7.2 Kaggleのモデル
- 7.2.1 Kaggleでの競技者
- 7.2.2 Kaggleの顧客
- 7.3 思考実験:ロボット評価者が示す道徳上の意味
- 7.4 特徴選択
- 7.4.1 例:ユーザの定着率
- 7.4.2 フィルタ
- 7.4.3 ラッパー
- 7.4.4 組み込み:決定木
- 7.4.5 エントロピー
- 7.4.6 決定木のアルゴリズム
- 7.4.7 決定木における連続値変数の扱い
- 7.4.8 ランダムフォレスト
- 7.4.9 ユーザの定着率:理解しやすさvs.予測力
- 7.5 ディビッド・ハファッカー:ソーシャル研究へのGoogleのハイブリッドなアプローチ
- 7.5.1 記述的から予測的へ
- 7.5.2 Googleにおけるソーシャル
- 7.5.3 プライバシー
- 7.5.4 思考実験:懸念点を減らし理解とコントロールを増やすための最良の方法とは?
- 第8章 レコメンデーションエンジン:ユーザが直接触れる大規模データ製品を構築する
- 8.1 現実世界でのレコメンデーションエンジン
- 8.1.1 最近傍法を振り返る
- 8.1.2 最近傍法の問題点
- 8.1.3 最近傍法を越えて:機械学習による分類
- 8.1.4 次元の問題
- 8.1.5 特異値分解
- 8.1.6 SVDの重要な特徴
- 8.1.7 主成分分析
- 8.1.8 最小二乗法の代替
- 8.1.9 Vを固定してUを更新する
- 8.1.10 3つのアルゴリズムについての最後の考察
- 8.2 思考実験:バブルを検出する
- 8.3 演習問題:レコメンデーションシステムの構築
- 8.3.1 Pythonのサンプルコード
- 第9章 データ可視化と不正検出
- 9.1 データ可視化の歴史
- 9.1.1 ガブリエル・タルド
- 9.1.2 マークの思考実験
- 9.2 データサイエンスとは何か、再び
- 9.2.1 Processing
- 9.2.2 フランコ・モレッティ
- 9.3 データ可視化プロジェクトの例
- 9.4 マークのデータ可視化プロジェクト
- 9.4.1 ニューヨークタイムズのロビー:Moveable Type
- 9.4.2 プロジェクトCascade:画面上でのライブ
- 9.4.3 クロンカイトプラザ
- 9.4.4 eBay取引と書籍
- 9.4.5 パブリックシアターのシェイクスピアマシン
- 9.4.6 これらの展示の目的
- 9.5 データサイエンスとリスク
- 9.5.1 Square社について
- 9.5.2 リスクに対する取り組み
- 9.5.3 性能推定における問題点
- 9.5.4 モデル構築のヒント
- 9.6 Square社でのデータ可視化
- 9.7 イアンの思考実験
- 9.8 その他の人々にとってのデータ可視化
- 9.8.1 データ可視化の演習問題
- 第10章 ソーシャルネットワークとデータジャーナリズム
- 10.1 Morningside Analyticsでのソーシャルネットワーク分析
- 10.1.1 ケース属性データvs.ソーシャルネットワークデータ
- 10.2 ソーシャルネットワーク分析
- 10.3 ソーシャルネットワーク由来の専門用語
- 10.3.1 中心性の尺度
- 10.3.2 中心性の業界
- 10.4 思考実験
- 10.5 Morningside Analytics
- 10.5.1 可視化によって魚の群れを特定する方法
- 10.6 統計学的視点から見たソーシャルネットワーク分析の深い背景
- 10.6.1 ネットワークの表現と固有ベクトル中心性
- 10.6.2 ランダムグラフの1つ目の例:Erdos-Renyiモデル
- 10.6.3 ランダムグラフの2つ目の例:指数ランダムグラフ
- 10.7 データジャーナリズム
- 10.7.1 データジャーナリズムの歴史
- 10.7.2 技術ジャーナリズムの執筆:専門家からのアドバイス
- 第11章 因果関係
- 11.1 相関関係は因果関係を含意しない
- 11.1.1 因果関係に関する問い
- 11.1.2 交絡因子:出会い系サイトの例
- 11.2 OkCupidの試み
- 11.3 ゴールドスタンダード:無作為化臨床試験
- 11.4 A/B テスト
- 11.5 次善策:観察研究
- 11.5.1 シンプソンのパラドックス
- 11.5.2 ルービンの因果モデル
- 11.5.3 因果関係の可視化
- 11.5.4 因果効果の定義
- 11.6 3つのアドバイス
- 第12章 疫学
- 12.1 マディガンの経歴
- 12.2 思考実験
- 12.3 現在の学術的な統計
- 12.4 医療文献と観察研究
- 12.5 層別化は交絡問題を解決しない
- 12.5.1 実際に交絡因子に関して行われていること
- 12.6 よい方法は存在するのか
- 12.7 調査実験(医薬の影響効果の組合せ観察)
- 12.8 思考実験の終了
- 第13章 データ分析のコンペティションから得られた教訓:データのリークとモデルの評価
- 13.1 データサイエンティストクラウディアのプロフィール
- 13.1.1 チーフデータサイエンティストの生涯
- 13.1.2 女性のデータサイエンティストであるということ
- 13.2 データマイニングコンペティション
- 13.3 よいモデル作成者になる方法
- 13.4 データのリーク
- 13.4.1 市場予測
- 13.4.2 Amazonの事例:高額購入者の予測
- 13.4.3 宝石購入者のサンプリングに関する問題
- 13.4.4 IBMの顧客ターゲティング
- 13.4.5 乳がんの検出
- 13.4.6 肺炎患者の予測
- 13.5 データのリークを回避する方法
- 13.6 モデルの評価
- 13.6.1 正確度:退屈な話
- 13.6.2 それは確率の問題であり、0と1ではない
- 13.7 アルゴリズムの選択
- 13.8 最後の例
- 13.9 最後に
- 第14章 データエンジニアリング:MapReduce、Pregel、Hadoop
- 14.1 ディビッド・クローショーについて
- 14.2 思考実験
- 14.3 MapReduce
- 14.4 単語頻度の問題
- 14.4.1 MapReduceの導入
- 14.5 MapReduceを使う他の例
- 14.5.1 MapReduceでできないこと
- 14.6 Pregel
- 14.7 ジョシュ・ウィルズについて
- 14.8 思考実験
- 14.9 データサイエンティストであること
- 14.9.1 データの豊富さをとるか、価値のある希少なデータだけを残すか
- 14.9.2 モデルの設計
- 14.10 経済面での落としどころ:Hadoop
- 14.10.1 Hadoopの簡単な紹介
- 14.10.2 Cloudera
- 14.11 ジョシュのワークフロー
- 14.12 Hadoopを使い始めるには
- 第15章 生徒たちの声
- 15.1 プロセスに関する思考
- 15.2 もはや単純(Naive)ではない
- 15.3 救いの手
- 15.4 道のりは変化する
- 15.5 橋渡しされたトンネル
- 15.6 成果物の一例
- 第16章 次世代のデータサイエンティスト、データに対する過信と倫理
- 16.1 今まさに起きていること
- 16.2 データサイエンスの定義について再考する
- 16.3 次世代のデータサイエンティストとは
- 16.3.1 問題を解決する人物であること
- 16.3.2 精神的な性質を磨くこと
- 16.3.3 疑問を持つ人になる
- 16.4 倫理的なデータサイエンティストであること
- 16.5 キャリアに対するアドバイス
- 著者紹介
- 奥付
Product information
- Title: データサイエンス講義
- Author(s):
- Release date: October 2014
- Publisher(s): O'Reilly Japan, Inc.
- ISBN: 9784873117010
You might also like
book
scikit-learn、Keras、TensorFlowによる実践機械学習 第2版
本書はコードを動かしながら学び、機械学習が使えるようになることを目的とした書籍です。現実的な問題を出し、サンプルデータを示しながら、機械学習で問題を解決に導くまでの一連の手法を体系立てて解説します。深層学習以外の機械学習にはscikit-learnを使い、機械学習プロジェクトの流れ、データからモデルを学習する方法、データの処理・クリーニングなどの基礎から、特徴量の選択や過学習、データの次元削減など応用までを学びます。深層学習にはTensorFlowとKerasを使い、ニューラルネットワークの構築と訓練、ニューラルネットワークアーキテクチャ、深層学習や強化学習、さらにTensorFlowの分散処理のメカニズムや実装までを幅広く解説します。
book
仕事ではじめる機械学習 第2版
2018年の発行以来、多くの読者に支持された書籍を全面改訂! 不確実性の高い機械学習プロジェクトについて、「仕事で使う」という観点から整理するコンセプトはそのままに、初版の発行後に登場した概念や課題を取り上げます。「機械学習でいい感じにしてくれ」と突然上司に言われたとき、本書で学んだことが読者の力になるはずです。本書で得た知識は読者が「いま」困っている問題を解決する助けとなるでしょう。 第2版では、機械学習システムの開発と運用の統合する「ML Ops」、機械学習モデルを解釈し、その妥当性や根拠を明らかにする「機械学習モデルの検証」、ユーザーの行動を学習しながら予測を進める「バンディットアルゴリズム」、意思決定における予測システムの役割や意思決定のデザインを扱う「オンライン広告での機械学習」といった新章を追加しています。
book
ハイパフォーマンス ブラウザネットワーキング ―ネットワークアプリケーションのためのパフォーマンス最適化
現代のアプリケーションエンジニアは、UIやデータ処理、開発言語、プラットフォームの仕様や癖だけでなく、サーバやネットワークについても、上から下まで、表から裏まで広く知ることを求められます。本書は「ブラウザ」に関連し、インターネットで使用されるさまざまなネットワーク技術をまとめたものです。HTTP/2.0やWebRTCなどの最新技術、WebSocketやXMLHttpRequestなどのブラウザAPI、そしてそれらの土台となるTCPやUDPやトランスポート層についてまでを幅広くカバーします。また改善前後の性能・速さを可能な限り具体化し、それぞれの場面においてのパフォーマンス改善幅を示します。
book
機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決
本書は、機械学習で繰り返し登場する課題を30のパターン(データ表現、問題表現、モデルの訓練、再現性、対応性、運用性、説明性、公平性などに関するもの)に分類し、それぞれについてベストプラクティスを提示・解説するデザインパターン集です。すぐ動かせるコード例とデータセットを豊富に含み、手を動かしながら機械学習を学びたい初心者の実践的な入門書としても、現場のデータサイエンティストやエンジニアのリファレンスとしても有用な内容となっています。著者のGoogle Cloudのデータ分析&AI部門トップとしての豊富な経験に基づく実用本位の一冊です。