book

データサイエンス設計マニュアル

Name: データサイエンス設計マニュアル
ISBN: 9784873118918

by Steven S. Skiena, 小野陽子, 長尾高弘

January 2020

Beginner to intermediate

728 pages

10h 26m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

1.3 データの性質
1.3.1 構造化データと非構造化データ
1.3.2 定量データとカテゴリデータ
1.3.3 ビッグデータとリトルデータ
1.4 分類と回帰
1.5 データサイエンスの動画：Quant Shop
1.5.1 Kaggle チャレンジ
1.6 「私の体験談から」について
1.7 私の体験談から：答えるためには正しい問いが必要だ
1.8 さらなる探求のために
1.9 演習問題
2章数学の基礎知識の準備
2.1 確率
2.1.1 確率と統計
2.1.2 複合事象と独立性
2.1.3 条件付き確率
2.1.4 確率分布
2.2 記述統計量
2.2.1 代表値
2.2.2 散らばりの尺度
2.2.3 分散の解釈方法
2.2.4 分布の特徴の説明
2.3 相関分析
2.3.1 相関係数：ピアソンの相関係数とスピアマンの順位相関係数
2.3.2 相関の有意性と予測力
2.3.3 相関があるからといって因果関係があるわけではない
2.3.4 自己相関による周期性の検出方法
2.4 対数
2.4.1 対数と確率の乗算
2.4.2 対数と比率
2.4.3 対数と歪んだ分布の正規化
2.5 私の体験談から：デザイナー遺伝子の適合
2.6 さらなる探求のために
2.7 演習問題
3章データマンジング
3.1 データサイエンスで使われるプログラミング言語
3.1.1 ノートブック環境の重要性
3.1.2 標準的なデータ形式
3.2 データの収集
3.2.1 データハンティング
3.2.2 スクレイピング
3.2.3 ロギング
3.3 データのクリーニング
3.3.1 エラーとデータの誤り
3.3.2 データの互換性
3.3.3 欠損値の処理
3.3.4 外れ値の検出
3.4 私の体験談から：市場を読み切れ
3.5 クラウドソーシング
3.5.1 1 セントコインの例
3.5.2 クラウドの知恵が発揮されるのはいつか
3.5.3 集計方法
3.5.4 クラウドソーシングサービス
3.5.5 ゲーミフィケーション
3.6 さらなる探求のために
3.7 演習問題
4章スコアとランキング
4.1 BMI（ボディマス指数）
4.2 スコアリング関数の開発
4.2.1 明確な基準（ゴールドスタンダード）とその代用尺度
4.2.2 スコアとランキング
4.2.3 優れたスコアリング関数の性質
4.3 Z スコアと正規化
4.4 ランキングの高度な技法
4.4.1 イロレーティング
4.4.2 ランキングのマージ
4.4.3 有向グラフによるランキング
4.4.4 PageRank
4.5 私の体験談から：Clyde の逆襲
4.6 アローの不可能性定理
4.7 私の体験談から：誰が偉大か
4.8 さらなる探求のために
4.9 演習問題
5章統計分析
5.1 統計的分布
5.1.1 二項分布
5.1.2 正規分布
5.1.3 正規分布に内在する意味
5.1.4 ポワソン分布
5.1.5 べき乗則分布
5.2 分布からのサンプリング
5.2.1 2 次元以上からの無作為なサンプリング
5.3 統計的有意性
5.3.1 有意性の重要性
5.3.2 t 検定：母平均の比較
5.3.3 コルモゴロフ・スミルノフ検定（KS 検定）
5.3.4 ボンフェローニ補正
5.3.5 誤検出率（False Discovery Rate）
5.4 私の体験談から：若さの泉の発見？
5.5 パーミュテーションテストとp 値
5.5.1 ランダムな順列の生成
5.5.2 ディマジオの連続安打
5.6 ベイズ推定
5.7 さらなる探求のために
5.8 演習問題
6章データの可視化
6.1 探索的データ分析
6.1.1 新しいデータセットの取り扱い
6.1.2 基本統計量とアンスコムの例
6.1.3 可視化ツール
6.2 可視化の審美眼の育成
6.2.1 データインク比の最大化
6.2.2 嘘係数の最小化
6.2.3 チャートジャンクの最小化
6.2.4 適切なスケーリングとラベリング
6.2.5 色とシェーディングの効果的な使い方
6.2.6 反復の力
6.3 グラフの種類
6.3.1 表形式のデータ
6.3.2 散布図と折れ線グラフ
6.3.3 散布図
6.3.4 棒グラフと円グラフ
6.3.5 ヒストグラム
6.3.6 データマップ
6.4 偉大なるビジュアライゼーション
6.4.1 マレーのダイヤグラム
6.4.2 スノーのコレラ感染地図
6.4.3 ニューヨークの年間の天気
6.5 グラフの解釈
6.5.1 分布がよくわからないグラフ
6.5.2 分散の過剰解釈
6.6 インタラクティブな可視化
6.7 私の体験談から：世界を描くTextMap
6.8 さらなる探求のために
6.9 演習問題
7章数理モデル
7.1 モデリングの哲学7.1.1 オッカムの剃刀
7.1.2 バイアス-バリアンストレードオフ
7.1.3 ネイト・シルバーならどうするか
7.2 モデルの用語
7.2.1 線形モデルと非線形モデル
7.2.2 ブラックボックスモデルと記述的モデル
7.2.3 第一原理モデルとデータ駆動型モデル
7.2.4 確率論的モデルと決定論的モデル
7.2.5 フラットモデルと階層化モデル
7.3 ベースラインモデル
7.3.1 分類問題のベースラインモデル
7.3.2 値予測問題のベースラインモデル
7.4 モデルの評価
7.4.1 分類器の評価
7.4.2 ROC 曲線
7.4.3 マルチクラス分類器の評価
7.4.4 値予測モデルの評価
7.5 評価システム
7.5.1 評価のためのデータの健全性
7.5.2 小規模な評価セットの拡張
7.6 私の体験談から：100% の正確度
7.7 シミュレーションモデル
7.8 私の体験談から：賭け方の計算
7.9 さらなる探求のために
7.10 演習問題
8章線形代数
8.1 線形代数の威力
8.1.1 線形代数における式の解釈
8.2 行列演算の可視化
8.2.1 行列の加算
8.2.2 行列の乗算
8.2.3 行列の乗算の応用
8.2.4 単位行列と逆行列
8.2.5 逆行列と線形方程式
8.2.6 行列のランク
8.3 行列の分解
8.3.1 特徴行列を分解する理由
8.3.2 LU 分解と行列式
8.4 固有値と固有ベクトル
8.4.1 固有値の性質
8.4.2 固有値の計算
8.5 固有値分解
8.5.1 特異値分解
8.5.2 主成分分析
8.6 私の体験談から：ヒューマンファクター
8.7 さらなる探求のために
8.8 演習問題
9章線形回帰とロジスティック回帰
9.1 線形回帰
9.1.1 線形回帰と双対性
9.1.2 線形回帰における誤差
9.1.3 最適なフィッティングの探索
9.2 より良い回帰モデル
9.2.1 外れ値の除去
9.2.2 非線形関数への回帰
9.2.3 特徴とターゲットのスケーリング
9.2.4 強い相関がある特徴の処理
9.3 私の体験談から：タクシー配達
9.4 パラメータフィッティング問題としての回帰
9.4.1 凸パラメータ空間
9.4.2 勾配降下探索
9.4.3 正しい学習率はどれくらいか
9.4.4 確率的勾配降下法
9.5 正則化によるモデルの単純化
9.5.1 リッジ回帰
9.5.2 Lasso 回帰
9.5.3 フィッティングと複雑さのトレードオフ
9.6 分類とロジスティック回帰
9.6.1 分類のための回帰
9.6.2 決定境界
9.6.3 ロジスティック回帰
9.7 ロジスティック分類の問題
9.7.1 バランスの取れた訓練データ
9.7.2 マルチクラス分類
9.7.3 階層的な分類
9.7.4 分配関数と多項ロジスティック回帰
9.8 さらなる探求のために
9.9 演習問題
10章ネットワーク分析と距離
10.1 距離の測定10.1.1 距離
10.1.2 Lk ノルム
10.1.3 高次元における操作
10.1.4 次元平等主義
10.1.5 点とベクトル
10.1.6 確率分布間の距離
10.2 最近傍分類
10.2.1 優れた類推の追求
10.2.2 k 近傍法
10.2.3 最近傍点の探索
10.2.4 局所鋭敏型ハッシュ
10.3 グラフ、ネットワーク、距離
10.3.1 重み付きグラフと「誘導ネットワーク」
10.3.2 グラフの用語
10.3.3 グラフ理論
10.4 PageRank
10.5 クラスタリング
10.5.1 k 平均法
10.5.2 階層的クラスタリング
10.5.3 クラスタリングの比較
10.5.4 類似度グラフとカットに基づくスペクトラルクラスタリング
10.6 私の体験談から：クラスタ爆弾
10.7 さらなる探求のために
10.8 演習問題
11章機械学習
11.1 ナイーブベイズ（単純ベイズ）
11.1.1 公式
11.1.2 カウント0 の処理（スムージング）
11.2 決定木分類器
11.2.1 決定木の構築方法
11.2.2 排他的論理和の認識
11.2.3 決定木のアンサンブル
11.3 ブースティングとアンサンブル学習
11.3.1 分類器による投票
11.3.2 ブースティングアルゴリズム
11.4 サポートベクターマシン
11.4.1 線形サポートベクターマシン
11.4.2 非線形サポートベクターマシン
11.4.3 カーネル
11.5 学習の度合い
11.5.1 教師あり学習11.5.2 教師なし学習
11.5.3 半教師あり学習
11.5.4 特徴エンジニアリング
11.6 ディープラーニング
11.6.1 ネットワークと深さ
11.6.2 逆伝播法
11.6.3 単語埋め込みとグラフ埋め込み
11.7 私の体験談から：名前のゲーム
11.8 さらなる探求のために
11.9 演習問題
12章ビッグデータ：スケールを追求
12.1 ビッグデータとは
12.1.1 バッドデータとしてのビッグデータ
12.1.2 3 つのV
12.2 私の体験談から：インフラの重要性
12.3 ビッグデータを扱うアルゴリズム
12.3.1 計算量分析
12.3.2 ハッシング（ハッシュ化）
12.3.3 記憶階層構造の活用
12.3.4 ストリーミングとシングルパスアルゴリズム
12.4 フィルタリングとサンプリング
12.4.1 決定論的サンプリングアルゴリズム
12.4.2 ランダムサンプリングとストリームからのサンプリング
12.5 並列化
12.5.1 1, 2, たくさん
12.5.2 データ並列処理
12.5.3 グリッドサーチ
12.5.4 クラウドコンピューティングサービス
12.6 MapReduce
12.6.1 Map とReduce のプログラミング
12.6.2 MapReduce の舞台裏
12.7 社会的倫理的な問題
12.8 さらなる探求のために
12.9 演習問題
13章最後に一言
13.1 仕事を手に入れよう！
13.2 大学院に進学する
13.3 コンサルティングサービス
参考文献 (1/2)
参考文献 (2/2)
索引 (1/4)
索引 (2/4)
索引 (3/4)
索引 (4/4)

Content preview from データサイエンス設計マニュアル

10.1 距離の測定 283

デー

タセットの次元数を増やすということは、すべての座標軸が全体にとってそれほど重要ではないと

言っているのと同じだ。特徴空間で 2 つの点の距離を測定する上で、d が大きければ、2 つの点をもっと近

づける（または遠ざける）方法がいくつもある。1 次元を除いたすべての次元において、ほぼ同じことが言

えるであろう。

そのため、高次元データ空間で最も大切なのは、ノルムの選択である。もちろん、常に L

ノルムを使う

ことにしてもよい。L

は安全で標準的な選択肢である。しかし、多くの次元で近い点を高く評価したいな

ら、L

を選ぶ方がよい。それに対し、大きな差があるフィールドがなく、すべての点が同じようなものな

ら、L

∞

を選ぶ方がよい。

これについては、特徴に対してランダムに付随するノイズが気になるか、大きなデータの誤りとなる例外

的な事象が気になるかの違いだと考えることもできる。前者の場合、あらゆる次元のノイズが距離に積み重

なっていく L

は望ましくない。しかし、大きなデータの誤りが気になるなら、1 つの列で大きな誤差が生

まれると、それが距離計算全体に影響する L

∞

は不適切だろう。

今後の課題

自由

に最良のノルムを選択しよう。さまざまな距離関数がどのようにしてデータセット内の各点

の類似性を明らかにするかを評価するのである。

10.1.4 次元平等主義

ノルムは、いずれも暗黙のうちにすべての座標軸を平等に扱うが、必ずしも平等に扱う必要はない。

対象領域固有の知識として、事例の類似性についてある特徴が他の特徴よりも重要であることがわかってい ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784873118918Other

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

データサイエンス設計マニュアル

by Steven S. Skiena, 小野陽子, 長尾高弘

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

Python機械学習クックブック

Rではじめるデータサイエンス

プログラミングC# 第8版

データ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理

Publisher Resources