book

Pythonではじめる教師なし学習 ―機械学習の可能性を広げるラベルなしデータの利用

Name: Pythonではじめる教師なし学習 ―機械学習の可能性を広げるラベルなしデータの利用
ISBN: 9784873119106

by Ankur A. Patel, 中田秀基

April 2020

Intermediate to advanced

344 pages

8h 22m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

目次
まえがき (3/3)
まえがき (1/3)
まえがき (2/3)
Ⅰ部教師なし学習の基礎
1章機械学習エコシステムにおける教師なし学習の立ち位置
1.1 基本的な機械学習用語
1.2 ルールベース vs. 機械学習
1.3 教師あり学習 vs. 教師なし学習
1.3.1 教師あり学習の利点と欠点1.3.2 教師なし学習の利点と欠点
1.4 教師なし学習を用いて機械学習システムを改良する
1.4.1 ラベル付きデータが十分にない1.4.2 過剰適合1.4.3 次元の呪い
1.4.4 特徴量エンジニアリング
1.4.5 外れ値1.4.6 データドリフト1.5 教師あり学習アルゴリズムの紹介 (1/2)1.5.1 線形手法1.5.2 近傍ベース法1.5.3 決定木ベースの手法
1.5 教師あり学習アルゴリズムの紹介 (2/2)
1.5.4 サポートベクタマシン1.5.5 ニューラルネットワーク

1.6 教師なし学習アルゴリズムの詳細 (1/2)
1.6.1 次元削減1.6.2 クラスタリング1.6.3 特徴量抽出1.6.4 教師なし深層学習
1.6 教師なし学習アルゴリズムの詳細 (2/2)
1.6.5 教師なし学習を用いた逐次データ分析
1.7 教師なし学習を用いた強化学習
1.8 半教師あり学習
1.9 教師なし学習の応用例1.9.1 異常検出
1.10 結論
2章機械学習プロジェクトの
2.1 環境の準備2.1.1 バージョン管理：Git2.1.2 本書のGitレポジトリのクローン2.1.3 科学技術計算ライブラリ：Anacondaディストリビューション2.1.4 ニューラルネットワーク：TensorFlowとKeras2.1.5 勾配ブースティングその1：XGBoost2.1.6 勾配ブースティングその2：LightGBM
2.1.7 クラスタリングアルゴリズム
2.1.8 対話的環境：Jupyter Notebook2.2 データの概要
2.3 データの準備 (1/2)
2.3.1 データの取得2.3.2 データの調査
2.3 データの準備 (2/2)
2.3.3 特徴量行列とラベル配列の作成2.3.4 特徴量エンジニアリングと特徴量選択
2.3.5 データの可視化
2.4 モデルの準備2.4.1 訓練セットとテストセットへの分割2.4.2 コスト関数の選択2.4.3 k分割交差検証セットの作成
2.5 機械学習モデル（PartⅠ）
2.5.1 モデル#1：ロジスティック回帰
2.6 評価尺度
2.6.1 混同行列2.6.2 適合率-再現率曲線2.6.3 ROC：受信者動作特性
2.7 機械学習モデル（PartⅡ） (1/2)
2.7.1 モデル#2：ランダムフォレスト2.7.2 モデル#3：勾配ブースティング器（XGBoost）
2.7 機械学習モデル（PartⅡ） (2/2)
2.7.3 モデル#4：勾配ブースティング器（LightGBM）
2.8 テストセットを用いた4つのモデルの検証
2.9 アンサンブル
2.9.1 スタッキング
2.10 最後のモデル選択
2.11 実運用システムパイプライン
2.12 まとめ
Ⅱ部 scikit-learnを用いた教師なし学習
3章次元削減
3.1 次元削減を行う動機3.1.1 MNIST数字データセット
3.2 次元削減アルゴリズム
3.2.1 線形射影 vs. 多様体学習3.3 PCA（主成分分析）3.3.1 PCAの概要3.3.2 PCAの使い方
3.3.3 インクリメンタルPCA
3.3.4 スパースPCA3.3.5 カーネルPCA
3.4 特異値分解
3.5 ランダム射影
3.5.1 ガウス型ランダム射影3.5.2 スパースランダム射影
3.6 Isomap
3.7 MDS（多次元尺度構成法）
3.8 LLE（局所線形埋め込み）
3.9 t-SNE
3.10 他の次元削減手法
3.11 辞書学習
3.12 ICA（独立成分分析）
3.13 まとめ
4章異常検出
4.1 クレジットカード不正検出4.1.1 データの準備4.1.2 異常スコア関数の定義4.1.3 評価尺度の定義4.1.4 プロット関数の定義
4.2 通常のPCAによる異常検出
4.2.1 元の次元数と同じ数の主成分を用いるPCA4.2.2 最適な主成分数の探索
4.3 スパースPCAによる異常検出
4.4 カーネルPCAによる異常検出
4.5 ガウス型ランダム射影を用いた異常検出
4.6 スパースランダム射影を用いた異常検出
4.7 非線形異常検出
4.8 辞書学習による異常検出
4.9 ICAによる異常検出
4.10 テストセットに対する不正検出
4.10.1 通常のPCAを用いたテストセットに対する異常検出4.10.2 ICAを用いたテストセットに対する異常検出4.10.3 辞書学習を用いたテストセットに対する異常検出
4.11 まとめ
5章クラスタリング
5.1 MNIST数字データセット5.1.1 データの準備
5.2 クラスタリングアルゴリズム
5.3 k平均法 (1/2)
5.3.1 k平均法のクラスタ慣性5.3.2 クラスタリング結果の評価5.3.3 k平均法の精度5.3.4 k平均法と主成分の数
5.3 k平均法 (2/2)
5.3.5 元のデータセットに対するk平均法
5.4 階層クラスタリング (1/2)
5.4.1 凝集型階層クラスタリング5.4.2 デンドログラム5.4.3 クラスタリング結果の評価
5.4 階層クラスタリング (2/2)
5.5 DBSCAN
5.5.1 DBSCANアルゴリズム5.5.2 DBSCANのMNIST数字データセットへの適用5.5.3 HDBSCAN
5.6 まとめ
6章グループ分け
6.1 LendingClubデータ6.1.1 データの準備6.1.2 文字列から数値への変換6.1.3 欠損値の補間
6.1.4 特徴量エンジニアリング
6.1.5 最終的な特徴量集合の選択とスケール変換6.1.6 評価用ラベルの指定
6.2 クラスタリングの評価
6.3 k平均法の適用
6.4 階層クラスタリングの適用
6.5 HDBSCANの適用
6.6 まとめ
Ⅲ部 TensorFlowとKerasを用いた教師なし学習
7章オートエンコーダ
7.1 ニューラルネットワーク7.1.1 TensorFlow
7.1.2 Keras
7.2 オートエンコーダ：エンコーダとデコーダ
7.3 未完備オートエンコーダ
7.4 過完備オートエンコーダ
7.5 デンス vs. スパースオートエンコーダ
7.6 ノイズ除去オートエンコーダ
7.7 変分オートエンコーダ
7.8 まとめ
8章オートエンコーダハンズオン
8.1 データの準備
8.2 オートエンコーダの構成要素
8.3 活性化関数
8.4 最初のオートエンコーダ (1/2)
8.4.1 損失関数8.4.2 最適化手法8.4.3 モデルの訓練8.4.4 テストセットを用いた評価
8.4 最初のオートエンコーダ (2/2)
8.5 線形活性化関数を用いた2層未完備オートエンコーダ
8.5.1 ノード数を増やしてみる8.5.2 層を増やしてみる
8.6 非線形オートエンコーダ
8.7 線形活性化関数を用いた過完備オートエンコーダ
8.8 線形活性化関数を用いドロップアウトを適用した過完備オートエンコーダ
8.9 線形活性化関数を用いたスパース過完備オートエンコーダ
8.10 線形活性化関数を用いドロップアウトを適用したスパース過完備オートエンコーダ
8.11 ノイズのあるデータセットへの対応
8.12 ノイズ除去オートエンコーダ (1/2)
8.12.1 線形活性化関数を用いた2層ノイズ除去未完備オートエンコーダ8.12.2 線形活性化関数を用いた2層ノイズ除去過完備オートエンコーダ
8.12 ノイズ除去オートエンコーダ (2/2)
8.12.3 ReLU活性化関数を用いた2層ノイズ除去過完備オートエンコーダ
8.13 まとめ
9章半教師あり学習
9.1 データの準備
9.2 教師ありモデル
9.3 教師なしモデル
9.4 半教師ありモデル
9.5 教師あり学習と教師なし学習の威力
9.6 まとめ
Ⅳ部 TensorFlowとKerasを用いた深層教師なし学習
10章制限付きボルツマンマシンを用いた推薦システム
10.1 ボルツマンマシン
10.1.1 制限付きボルツマンマシン（RBM）
10.2 推薦システム10.2.1 協調フィルタリング
10.2.2 The Netflix Prize
10.3 MovieLensデータセット (1/2)10.3.1 データの準備10.3.2 コスト関数の定義：平均二乗誤差
10.3 MovieLensデータセット (2/2)
10.3.3 ベースライン実験
10.4 行列分解
10.4.1 潜在因子が1の場合10.4.2 潜在因子が3の場合
10.4.3 潜在因子が5の場合
10.5 RBMを用いた協調フィルタリング (1/2)10.5.1 RBMニューラルネットワークの構造10.5.2 RBMクラスの部品の作成
10.5 RBMを用いた協調フィルタリング (2/2)
10.5.3 RBMを用いた推薦システムの訓練
10.6 まとめ
11章深層信念ネットワークを用いた特徴量検出
11.1 深層信念ネットワークの詳細
11.2 MNIST画像クラス分類
11.3 制限付きボルツマンマシン
11.3.1 RBMクラスの構成要素の構築11.3.2 RBMモデルを用いた画像の生成11.3.3 中間特徴量検出を見る
11.4 3つのRBMからなるDBNの学習 (1/2)
11.4.1 不正検出の試行11.4.2 生成された画像
11.4 3つのRBMからなるDBNの学習 (2/2)
11.5 完全な深層信念ネットワーク
11.5.1 DBNの学習プロセス11.5.2 DBNの学習
11.6 教師なし学習を用いた教師あり学習手法の改善 (1/2)
11.6.1 画像クラス分類器を改善するための画像生成
11.6 教師なし学習を用いた教師あり学習手法の改善 (2/2)
11.7 LightGBMを用いた画像クラス分類器
11.7.1 教師あり学習だけの場合11.7.2 教師なし学習と教師あり学習を併用したシステム
11.8 まとめ
12章敵対的生成ネットワーク
12.1 GANの考え方
12.1.1 GANの威力
12.2 深層畳み込み敵対的生成ネットワーク
12.3 畳み込みニューラルネットワーク
12.4 DCGAN再訪 (1/2)
12.4.1 DCGANの生成ネットワーク12.4.2 DCGANの識別ネットワーク12.4.3 識別モデルと敵対的モデル12.4.4 MNISTデータセット用DCGAN
12.4 DCGAN再訪 (2/2)
12.5 MNIST DCGANの動作
12.5.1 合成画像の生成
12.6 まとめ
13章時系列クラスタリング
13.1 心電図データ
13.2 時系列クラスタリングに対するアプローチ13.2.1 k-Shape法
13.3 k-Shape法による時系列クラスタリング：ECGFiveDays
13.3.1 データの準備13.3.2 訓練と評価
13.4 k-Shape法による時系列クラスタリング：ECG5000 (1/2)
13.4.1 データの準備13.4.2 訓練と評価
13.4 k-Shape法による時系列クラスタリング：ECG5000 (2/2)
13.5 k平均法を用いたECG5000に対する時系列クラスタリング
13.6 階層DBSCANによる時系列クラスタリング：ECG5000
13.7 時系列クラスタリングアルゴリズムの比較 (1/2)
13.7.1 すべてのデータセットに対するk-Shape法の実行13.7.2 すべてのデータセットに対するk平均法の実行13.7.3 すべてのデータセットに対するHDBSCANの実行
13.7 時系列クラスタリングアルゴリズムの比較 (2/2)
13.7.4 3つの時系列クラスタリング手法の比較
13.8 まとめ
14章終わりに
14.1 教師あり学習
14.2 教師なし学習
14.2.1 scikit-learn14.2.2 TensorFlowとKeras
14.3 強化学習
14.4 教師なし学習応用が期待される分野
14.5 教師なし学習の未来
14.6 最後に一言
索引 (1/3)
索引 (2/3)
索引 (3/3)

Content preview from Pythonではじめる教師なし学習 ―機械学習の可能性を広げるラベルなしデータの利用

13.4

k-Shape

法による時系列クラスタリング：

ECG5000

291

Adjusted Rand Index on Test Set: 0.5301670526070555

訓練セットのサイズを

から

4,000

にまで増やしたことで、はるかに性能が良い時系列クラスタリン

グモデルを構築できた。

作成されたクラスタをもう少し詳しく調べてみよう。クラスタはどれだけ均質になっているだろうか。

予測されたそれぞれのクラスタに対して、実際のラベルの分布を見てみよう。クラスタがうまく分割で

きていて均質であるなら、それぞれのクラスタ内の心電図の真のラベルはほとんどが同じになるはず

だ。

# Evaluate goodness of the clusters

preds_test = preds_test.reshape(1000,1)

preds_test = np.hstack((preds_test,data_test[:,0].reshape(1000,1)))

preds_test = pd.DataFrame(data=preds_test)

preds_test = preds_test.rename(columns={0: 'prediction', 1: 'actual'})

counter = 0

for i in np.sort(preds_test.prediction.unique()):

print("Predicted Cluster ", i)

print(preds_test.actual[preds_test.prediction==i].value_counts()) ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9784873119106Other

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Pythonではじめる教師なし学習 ―機械学習の可能性を広げるラベルなしデータの利用

by Ankur A. Patel, 中田秀基

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

More than 5,000 organizations count on O’Reilly

Julian F.

Addison B.

Amir M.

Mark W.

You might also like

プログラミングC# 第8版

Rではじめるデータサイエンス

Go言語による並行処理

Python機械学習クックブック

Publisher Resources