book

データサイエンス設計マニュアル

Name: データサイエンス設計マニュアル
ISBN: 9784873118918

by Steven S. Skiena, 小野陽子, 長尾高弘

January 2020

Beginner to intermediate

728 pages

10h 26m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

1.3 データの性質
1.3.1 構造化データと非構造化データ
1.3.2 定量データとカテゴリデータ
1.3.3 ビッグデータとリトルデータ
1.4 分類と回帰
1.5 データサイエンスの動画：Quant Shop
1.5.1 Kaggle チャレンジ
1.6 「私の体験談から」について
1.7 私の体験談から：答えるためには正しい問いが必要だ
1.8 さらなる探求のために
1.9 演習問題
2章数学の基礎知識の準備
2.1 確率
2.1.1 確率と統計
2.1.2 複合事象と独立性
2.1.3 条件付き確率
2.1.4 確率分布
2.2 記述統計量
2.2.1 代表値
2.2.2 散らばりの尺度
2.2.3 分散の解釈方法
2.2.4 分布の特徴の説明
2.3 相関分析
2.3.1 相関係数：ピアソンの相関係数とスピアマンの順位相関係数
2.3.2 相関の有意性と予測力
2.3.3 相関があるからといって因果関係があるわけではない
2.3.4 自己相関による周期性の検出方法
2.4 対数
2.4.1 対数と確率の乗算
2.4.2 対数と比率
2.4.3 対数と歪んだ分布の正規化
2.5 私の体験談から：デザイナー遺伝子の適合
2.6 さらなる探求のために
2.7 演習問題
3章データマンジング
3.1 データサイエンスで使われるプログラミング言語
3.1.1 ノートブック環境の重要性
3.1.2 標準的なデータ形式
3.2 データの収集
3.2.1 データハンティング
3.2.2 スクレイピング
3.2.3 ロギング
3.3 データのクリーニング
3.3.1 エラーとデータの誤り
3.3.2 データの互換性
3.3.3 欠損値の処理
3.3.4 外れ値の検出
3.4 私の体験談から：市場を読み切れ
3.5 クラウドソーシング
3.5.1 1 セントコインの例
3.5.2 クラウドの知恵が発揮されるのはいつか
3.5.3 集計方法
3.5.4 クラウドソーシングサービス
3.5.5 ゲーミフィケーション
3.6 さらなる探求のために
3.7 演習問題
4章スコアとランキング
4.1 BMI（ボディマス指数）
4.2 スコアリング関数の開発
4.2.1 明確な基準（ゴールドスタンダード）とその代用尺度
4.2.2 スコアとランキング
4.2.3 優れたスコアリング関数の性質
4.3 Z スコアと正規化
4.4 ランキングの高度な技法
4.4.1 イロレーティング
4.4.2 ランキングのマージ
4.4.3 有向グラフによるランキング
4.4.4 PageRank
4.5 私の体験談から：Clyde の逆襲
4.6 アローの不可能性定理
4.7 私の体験談から：誰が偉大か
4.8 さらなる探求のために
4.9 演習問題
5章統計分析
5.1 統計的分布
5.1.1 二項分布
5.1.2 正規分布
5.1.3 正規分布に内在する意味
5.1.4 ポワソン分布
5.1.5 べき乗則分布
5.2 分布からのサンプリング
5.2.1 2 次元以上からの無作為なサンプリング
5.3 統計的有意性
5.3.1 有意性の重要性
5.3.2 t 検定：母平均の比較
5.3.3 コルモゴロフ・スミルノフ検定（KS 検定）
5.3.4 ボンフェローニ補正
5.3.5 誤検出率（False Discovery Rate）
5.4 私の体験談から：若さの泉の発見？
5.5 パーミュテーションテストとp 値
5.5.1 ランダムな順列の生成
5.5.2 ディマジオの連続安打
5.6 ベイズ推定
5.7 さらなる探求のために
5.8 演習問題
6章データの可視化
6.1 探索的データ分析
6.1.1 新しいデータセットの取り扱い
6.1.2 基本統計量とアンスコムの例
6.1.3 可視化ツール
6.2 可視化の審美眼の育成
6.2.1 データインク比の最大化
6.2.2 嘘係数の最小化
6.2.3 チャートジャンクの最小化
6.2.4 適切なスケーリングとラベリング
6.2.5 色とシェーディングの効果的な使い方
6.2.6 反復の力
6.3 グラフの種類
6.3.1 表形式のデータ
6.3.2 散布図と折れ線グラフ
6.3.3 散布図
6.3.4 棒グラフと円グラフ
6.3.5 ヒストグラム
6.3.6 データマップ
6.4 偉大なるビジュアライゼーション
6.4.1 マレーのダイヤグラム
6.4.2 スノーのコレラ感染地図
6.4.3 ニューヨークの年間の天気
6.5 グラフの解釈
6.5.1 分布がよくわからないグラフ
6.5.2 分散の過剰解釈
6.6 インタラクティブな可視化
6.7 私の体験談から：世界を描くTextMap
6.8 さらなる探求のために
6.9 演習問題
7章数理モデル
7.1 モデリングの哲学7.1.1 オッカムの剃刀
7.1.2 バイアス-バリアンストレードオフ
7.1.3 ネイト・シルバーならどうするか
7.2 モデルの用語
7.2.1 線形モデルと非線形モデル
7.2.2 ブラックボックスモデルと記述的モデル
7.2.3 第一原理モデルとデータ駆動型モデル
7.2.4 確率論的モデルと決定論的モデル
7.2.5 フラットモデルと階層化モデル
7.3 ベースラインモデル
7.3.1 分類問題のベースラインモデル
7.3.2 値予測問題のベースラインモデル
7.4 モデルの評価
7.4.1 分類器の評価
7.4.2 ROC 曲線
7.4.3 マルチクラス分類器の評価
7.4.4 値予測モデルの評価
7.5 評価システム
7.5.1 評価のためのデータの健全性
7.5.2 小規模な評価セットの拡張
7.6 私の体験談から：100% の正確度
7.7 シミュレーションモデル
7.8 私の体験談から：賭け方の計算
7.9 さらなる探求のために
7.10 演習問題
8章線形代数
8.1 線形代数の威力
8.1.1 線形代数における式の解釈
8.2 行列演算の可視化
8.2.1 行列の加算
8.2.2 行列の乗算
8.2.3 行列の乗算の応用
8.2.4 単位行列と逆行列
8.2.5 逆行列と線形方程式
8.2.6 行列のランク
8.3 行列の分解
8.3.1 特徴行列を分解する理由
8.3.2 LU 分解と行列式
8.4 固有値と固有ベクトル
8.4.1 固有値の性質
8.4.2 固有値の計算
8.5 固有値分解
8.5.1 特異値分解
8.5.2 主成分分析
8.6 私の体験談から：ヒューマンファクター
8.7 さらなる探求のために
8.8 演習問題
9章線形回帰とロジスティック回帰
9.1 線形回帰
9.1.1 線形回帰と双対性
9.1.2 線形回帰における誤差
9.1.3 最適なフィッティングの探索
9.2 より良い回帰モデル
9.2.1 外れ値の除去
9.2.2 非線形関数への回帰
9.2.3 特徴とターゲットのスケーリング
9.2.4 強い相関がある特徴の処理
9.3 私の体験談から：タクシー配達
9.4 パラメータフィッティング問題としての回帰
9.4.1 凸パラメータ空間
9.4.2 勾配降下探索
9.4.3 正しい学習率はどれくらいか
9.4.4 確率的勾配降下法
9.5 正則化によるモデルの単純化
9.5.1 リッジ回帰
9.5.2 Lasso 回帰
9.5.3 フィッティングと複雑さのトレードオフ
9.6 分類とロジスティック回帰
9.6.1 分類のための回帰
9.6.2 決定境界
9.6.3 ロジスティック回帰
9.7 ロジスティック分類の問題
9.7.1 バランスの取れた訓練データ
9.7.2 マルチクラス分類
9.7.3 階層的な分類
9.7.4 分配関数と多項ロジスティック回帰
9.8 さらなる探求のために
9.9 演習問題
10章ネットワーク分析と距離
10.1 距離の測定10.1.1 距離
10.1.2 Lk ノルム
10.1.3 高次元における操作
10.1.4 次元平等主義
10.1.5 点とベクトル
10.1.6 確率分布間の距離
10.2 最近傍分類
10.2.1 優れた類推の追求
10.2.2 k 近傍法
10.2.3 最近傍点の探索
10.2.4 局所鋭敏型ハッシュ
10.3 グラフ、ネットワーク、距離
10.3.1 重み付きグラフと「誘導ネットワーク」
10.3.2 グラフの用語
10.3.3 グラフ理論
10.4 PageRank
10.5 クラスタリング
10.5.1 k 平均法
10.5.2 階層的クラスタリング
10.5.3 クラスタリングの比較
10.5.4 類似度グラフとカットに基づくスペクトラルクラスタリング
10.6 私の体験談から：クラスタ爆弾
10.7 さらなる探求のために
10.8 演習問題
11章機械学習
11.1 ナイーブベイズ（単純ベイズ）
11.1.1 公式
11.1.2 カウント0 の処理（スムージング）
11.2 決定木分類器
11.2.1 決定木の構築方法
11.2.2 排他的論理和の認識
11.2.3 決定木のアンサンブル
11.3 ブースティングとアンサンブル学習
11.3.1 分類器による投票
11.3.2 ブースティングアルゴリズム
11.4 サポートベクターマシン
11.4.1 線形サポートベクターマシン
11.4.2 非線形サポートベクターマシン
11.4.3 カーネル
11.5 学習の度合い
11.5.1 教師あり学習11.5.2 教師なし学習
11.5.3 半教師あり学習
11.5.4 特徴エンジニアリング
11.6 ディープラーニング
11.6.1 ネットワークと深さ
11.6.2 逆伝播法
11.6.3 単語埋め込みとグラフ埋め込み
11.7 私の体験談から：名前のゲーム
11.8 さらなる探求のために
11.9 演習問題
12章ビッグデータ：スケールを追求
12.1 ビッグデータとは
12.1.1 バッドデータとしてのビッグデータ
12.1.2 3 つのV
12.2 私の体験談から：インフラの重要性
12.3 ビッグデータを扱うアルゴリズム
12.3.1 計算量分析
12.3.2 ハッシング（ハッシュ化）
12.3.3 記憶階層構造の活用
12.3.4 ストリーミングとシングルパスアルゴリズム
12.4 フィルタリングとサンプリング
12.4.1 決定論的サンプリングアルゴリズム
12.4.2 ランダムサンプリングとストリームからのサンプリング
12.5 並列化
12.5.1 1, 2, たくさん
12.5.2 データ並列処理
12.5.3 グリッドサーチ
12.5.4 クラウドコンピューティングサービス
12.6 MapReduce
12.6.1 Map とReduce のプログラミング
12.6.2 MapReduce の舞台裏
12.7 社会的倫理的な問題
12.8 さらなる探求のために
12.9 演習問題
13章最後に一言
13.1 仕事を手に入れよう！
13.2 大学院に進学する
13.3 コンサルティングサービス
参考文献 (1/2)
参考文献 (2/2)
索引 (1/4)
索引 (2/4)
索引 (3/4)
索引 (4/4)

Content preview from データサイエンス設計マニュアル

200 7 章数理モデル

と答

えるベースライン分類器は、がん検出問題で 95 % の正確度を達成する。これは、両方のクラス

で 94 % 正しいバランスの取れた分類器よりも高い。

• 再現率は、分類器のバランスが取れているときに限り、正確度と等しくなる：両方のクラスを同じ正

確度で認識できるとすばらしいことが起こる。訓練データの両クラスのサイズが異なるときには、訓

練でこれを自動的に実現することはできない。実際、一般に訓練セットの陽性事例と陰性事例の数を

揃えるとよいとされているのは、そのためである。

• 2 つのクラスでサイズが大きく異なると、適合率を高くするのは非常に難しい：がん検出問題では、

陽性事例と陰性事例の両方で 99 % の正確度を持つバランスの取れた分類器でも、84 % 以上の適合率

を達成することはできない。これは、陰性事例が陽性事例の 20 倍近くもあるからだ。大きい陰性ク

ラスで 1 % の分類ミスが起きて偽陽性が生まれると、真陽性が 5 % しかいない状況のもとでは大き

な影響が及ぶ。

• 1 つの指標だけで判断しなければならないときには F 値が最も適しているが、分類器の性能を説明す

るときには 4 つの指標のそれぞれに意味がある：再現率よりも適合率の方が高い分類器では、陽性に

分類する事例が少なすぎるので、そのことを頭に入れて調整すれば性能を上げられるはずだ。逆に適

合率よりも再現率の方が高い場合には、陽性の宣言を控え目にすれば、F 値が上がる。正確度と再現

率がかけ離れている場合は、分類器のバランスが取れていない。そこで、どちらが悪影響を及ぼして ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784873118918Other

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

データサイエンス設計マニュアル

by Steven S. Skiena, 小野陽子, 長尾高弘

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

Python機械学習クックブック

Rではじめるデータサイエンス

プログラミングC# 第8版

データ指向アプリケーションデザイン ―信頼性、拡張性、保守性の高い分散システム設計の原理

Publisher Resources