book

データサイエンス設計マニュアル

Name: データサイエンス設計マニュアル
ISBN: 9784873118918

by Steven S. Skiena, 小野陽子, 長尾高弘

January 2020

Beginner to intermediate

728 pages

10h 26m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

1.3 データの性質
1.3.1 構造化データと非構造化データ
1.3.2 定量データとカテゴリデータ
1.3.3 ビッグデータとリトルデータ
1.4 分類と回帰
1.5 データサイエンスの動画：Quant Shop
1.5.1 Kaggle チャレンジ
1.6 「私の体験談から」について
1.7 私の体験談から：答えるためには正しい問いが必要だ
1.8 さらなる探求のために
1.9 演習問題
2章数学の基礎知識の準備
2.1 確率
2.1.1 確率と統計
2.1.2 複合事象と独立性
2.1.3 条件付き確率
2.1.4 確率分布
2.2 記述統計量
2.2.1 代表値
2.2.2 散らばりの尺度
2.2.3 分散の解釈方法
2.2.4 分布の特徴の説明
2.3 相関分析
2.3.1 相関係数：ピアソンの相関係数とスピアマンの順位相関係数
2.3.2 相関の有意性と予測力
2.3.3 相関があるからといって因果関係があるわけではない
2.3.4 自己相関による周期性の検出方法
2.4 対数
2.4.1 対数と確率の乗算
2.4.2 対数と比率
2.4.3 対数と歪んだ分布の正規化
2.5 私の体験談から：デザイナー遺伝子の適合
2.6 さらなる探求のために
2.7 演習問題
3章データマンジング
3.1 データサイエンスで使われるプログラミング言語
3.1.1 ノートブック環境の重要性
3.1.2 標準的なデータ形式
3.2 データの収集
3.2.1 データハンティング
3.2.2 スクレイピング
3.2.3 ロギング
3.3 データのクリーニング
3.3.1 エラーとデータの誤り
3.3.2 データの互換性
3.3.3 欠損値の処理
3.3.4 外れ値の検出
3.4 私の体験談から：市場を読み切れ
3.5 クラウドソーシング
3.5.1 1 セントコインの例
3.5.2 クラウドの知恵が発揮されるのはいつか
3.5.3 集計方法
3.5.4 クラウドソーシングサービス
3.5.5 ゲーミフィケーション
3.6 さらなる探求のために
3.7 演習問題
4章スコアとランキング
4.1 BMI（ボディマス指数）
4.2 スコアリング関数の開発
4.2.1 明確な基準（ゴールドスタンダード）とその代用尺度
4.2.2 スコアとランキング
4.2.3 優れたスコアリング関数の性質
4.3 Z スコアと正規化
4.4 ランキングの高度な技法
4.4.1 イロレーティング
4.4.2 ランキングのマージ
4.4.3 有向グラフによるランキング
4.4.4 PageRank
4.5 私の体験談から：Clyde の逆襲
4.6 アローの不可能性定理
4.7 私の体験談から：誰が偉大か
4.8 さらなる探求のために
4.9 演習問題
5章統計分析
5.1 統計的分布
5.1.1 二項分布
5.1.2 正規分布
5.1.3 正規分布に内在する意味
5.1.4 ポワソン分布
5.1.5 べき乗則分布
5.2 分布からのサンプリング
5.2.1 2 次元以上からの無作為なサンプリング
5.3 統計的有意性
5.3.1 有意性の重要性
5.3.2 t 検定：母平均の比較
5.3.3 コルモゴロフ・スミルノフ検定（KS 検定）
5.3.4 ボンフェローニ補正
5.3.5 誤検出率（False Discovery Rate）
5.4 私の体験談から：若さの泉の発見？
5.5 パーミュテーションテストとp 値
5.5.1 ランダムな順列の生成
5.5.2 ディマジオの連続安打
5.6 ベイズ推定
5.7 さらなる探求のために
5.8 演習問題
6章データの可視化
6.1 探索的データ分析
6.1.1 新しいデータセットの取り扱い
6.1.2 基本統計量とアンスコムの例
6.1.3 可視化ツール
6.2 可視化の審美眼の育成
6.2.1 データインク比の最大化
6.2.2 嘘係数の最小化
6.2.3 チャートジャンクの最小化
6.2.4 適切なスケーリングとラベリング
6.2.5 色とシェーディングの効果的な使い方
6.2.6 反復の力
6.3 グラフの種類
6.3.1 表形式のデータ
6.3.2 散布図と折れ線グラフ
6.3.3 散布図
6.3.4 棒グラフと円グラフ
6.3.5 ヒストグラム
6.3.6 データマップ
6.4 偉大なるビジュアライゼーション
6.4.1 マレーのダイヤグラム
6.4.2 スノーのコレラ感染地図
6.4.3 ニューヨークの年間の天気
6.5 グラフの解釈
6.5.1 分布がよくわからないグラフ
6.5.2 分散の過剰解釈
6.6 インタラクティブな可視化
6.7 私の体験談から：世界を描くTextMap
6.8 さらなる探求のために
6.9 演習問題
7章数理モデル
7.1 モデリングの哲学7.1.1 オッカムの剃刀
7.1.2 バイアス-バリアンストレードオフ
7.1.3 ネイト・シルバーならどうするか
7.2 モデルの用語
7.2.1 線形モデルと非線形モデル
7.2.2 ブラックボックスモデルと記述的モデル
7.2.3 第一原理モデルとデータ駆動型モデル
7.2.4 確率論的モデルと決定論的モデル
7.2.5 フラットモデルと階層化モデル
7.3 ベースラインモデル
7.3.1 分類問題のベースラインモデル
7.3.2 値予測問題のベースラインモデル
7.4 モデルの評価
7.4.1 分類器の評価
7.4.2 ROC 曲線
7.4.3 マルチクラス分類器の評価
7.4.4 値予測モデルの評価
7.5 評価システム
7.5.1 評価のためのデータの健全性
7.5.2 小規模な評価セットの拡張
7.6 私の体験談から：100% の正確度
7.7 シミュレーションモデル
7.8 私の体験談から：賭け方の計算
7.9 さらなる探求のために
7.10 演習問題
8章線形代数
8.1 線形代数の威力
8.1.1 線形代数における式の解釈
8.2 行列演算の可視化
8.2.1 行列の加算
8.2.2 行列の乗算
8.2.3 行列の乗算の応用
8.2.4 単位行列と逆行列
8.2.5 逆行列と線形方程式
8.2.6 行列のランク
8.3 行列の分解
8.3.1 特徴行列を分解する理由
8.3.2 LU 分解と行列式
8.4 固有値と固有ベクトル
8.4.1 固有値の性質
8.4.2 固有値の計算
8.5 固有値分解
8.5.1 特異値分解
8.5.2 主成分分析
8.6 私の体験談から：ヒューマンファクター
8.7 さらなる探求のために
8.8 演習問題
9章線形回帰とロジスティック回帰
9.1 線形回帰
9.1.1 線形回帰と双対性
9.1.2 線形回帰における誤差
9.1.3 最適なフィッティングの探索
9.2 より良い回帰モデル
9.2.1 外れ値の除去
9.2.2 非線形関数への回帰
9.2.3 特徴とターゲットのスケーリング
9.2.4 強い相関がある特徴の処理
9.3 私の体験談から：タクシー配達
9.4 パラメータフィッティング問題としての回帰
9.4.1 凸パラメータ空間
9.4.2 勾配降下探索
9.4.3 正しい学習率はどれくらいか
9.4.4 確率的勾配降下法
9.5 正則化によるモデルの単純化
9.5.1 リッジ回帰
9.5.2 Lasso 回帰
9.5.3 フィッティングと複雑さのトレードオフ
9.6 分類とロジスティック回帰
9.6.1 分類のための回帰
9.6.2 決定境界
9.6.3 ロジスティック回帰
9.7 ロジスティック分類の問題
9.7.1 バランスの取れた訓練データ
9.7.2 マルチクラス分類
9.7.3 階層的な分類
9.7.4 分配関数と多項ロジスティック回帰
9.8 さらなる探求のために
9.9 演習問題
10章ネットワーク分析と距離
10.1 距離の測定10.1.1 距離
10.1.2 Lk ノルム
10.1.3 高次元における操作
10.1.4 次元平等主義
10.1.5 点とベクトル
10.1.6 確率分布間の距離
10.2 最近傍分類
10.2.1 優れた類推の追求
10.2.2 k 近傍法
10.2.3 最近傍点の探索
10.2.4 局所鋭敏型ハッシュ
10.3 グラフ、ネットワーク、距離
10.3.1 重み付きグラフと「誘導ネットワーク」
10.3.2 グラフの用語
10.3.3 グラフ理論
10.4 PageRank
10.5 クラスタリング
10.5.1 k 平均法
10.5.2 階層的クラスタリング
10.5.3 クラスタリングの比較
10.5.4 類似度グラフとカットに基づくスペクトラルクラスタリング
10.6 私の体験談から：クラスタ爆弾
10.7 さらなる探求のために
10.8 演習問題
11章機械学習
11.1 ナイーブベイズ（単純ベイズ）
11.1.1 公式
11.1.2 カウント0 の処理（スムージング）
11.2 決定木分類器
11.2.1 決定木の構築方法
11.2.2 排他的論理和の認識
11.2.3 決定木のアンサンブル
11.3 ブースティングとアンサンブル学習
11.3.1 分類器による投票
11.3.2 ブースティングアルゴリズム
11.4 サポートベクターマシン
11.4.1 線形サポートベクターマシン
11.4.2 非線形サポートベクターマシン
11.4.3 カーネル
11.5 学習の度合い
11.5.1 教師あり学習11.5.2 教師なし学習
11.5.3 半教師あり学習
11.5.4 特徴エンジニアリング
11.6 ディープラーニング
11.6.1 ネットワークと深さ
11.6.2 逆伝播法
11.6.3 単語埋め込みとグラフ埋め込み
11.7 私の体験談から：名前のゲーム
11.8 さらなる探求のために
11.9 演習問題
12章ビッグデータ：スケールを追求
12.1 ビッグデータとは
12.1.1 バッドデータとしてのビッグデータ
12.1.2 3 つのV
12.2 私の体験談から：インフラの重要性
12.3 ビッグデータを扱うアルゴリズム
12.3.1 計算量分析
12.3.2 ハッシング（ハッシュ化）
12.3.3 記憶階層構造の活用
12.3.4 ストリーミングとシングルパスアルゴリズム
12.4 フィルタリングとサンプリング
12.4.1 決定論的サンプリングアルゴリズム
12.4.2 ランダムサンプリングとストリームからのサンプリング
12.5 並列化
12.5.1 1, 2, たくさん
12.5.2 データ並列処理
12.5.3 グリッドサーチ
12.5.4 クラウドコンピューティングサービス
12.6 MapReduce
12.6.1 Map とReduce のプログラミング
12.6.2 MapReduce の舞台裏
12.7 社会的倫理的な問題
12.8 さらなる探求のために
12.9 演習問題
13章最後に一言
13.1 仕事を手に入れよう！
13.2 大学院に進学する
13.3 コンサルティングサービス
参考文献 (1/2)
参考文献 (2/2)
索引 (1/4)
索引 (2/4)
索引 (3/4)
索引 (4/4)

Content preview from データサイエンス設計マニュアル

378 12 章ビッグデータ：スケールを追求

プログラミングでも、Spark が Hadoop よりも性能的に大きく進歩した要因の 1 つである。

図 12 -2 は

、3 個の Map と 2 個の Reduce を使って単語の出現頻度を数える MapReduce ジョブの処理の

流れを示したものである。局所的に結合処理が行われているため、入力ファイル内で複数回使われている単

語（この場合は「do」、「be」、「duty」）の出現頻度は、Reduce に放出される前に合計されている。

図 12 -2 は、マッピングの歪みの問題を示している。つまり、個々の Reduce に割り振られた作業量は、自

然に不均衡になる。この単純な例でも、上の Reduce は下の Reduce と比べて単語数にして 33 % 、頻度の数

値にして 60 % 多い。直列（並列処理なし）の実行時間が T のタスクの場合、n 個のプロセッサで完全な並

列処理ができれば、実行時間は T /n で済むはずである。しかし、MapReduce ジョブの実行時間は、最も大

きく、処理に時間がかかる箇所によって決まる。Map の歪みのために、最大のピースは平均サイズよりもか

なり大きくなってしまうことが多い。

たまたまのめぐり合わせは、確かに Map の歪みの原因の 1 つになる。n 枚のコインを投げて表と裏が同

じ枚数になることはまずない。しかし、キーの頻度がべき乗則分布に従っており、最も頻出するキーが出現

回数に影響することの方が原因としては深刻である。単語の出現頻度計算の問題について考えてみよう。単 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784873118918Other

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

データサイエンス設計マニュアル

by Steven S. Skiena, 小野陽子, 長尾高弘

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

Python機械学習クックブック

Rではじめるデータサイエンス

プログラミングC# 第8版

データ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理

Publisher Resources