book

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

by Andreas C. Muller, Sarah Guido, 中田秀基

May 2017

Intermediate to advanced

392 pages

6h 14m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

対象読者本を書いた理由本書の構成オンラインの資料表記法コードサンプルの使い方意見と連絡先謝辞AndreasよりSarahより
1.1　なぜ機械学習なのか？1.1.1　機械学習で解決可能な問題1.1.2　タスクを知り、データを知る1.2　なぜPythonなのか？1.3　scikit-learn1.3.1　scikit-learnのインストール1.4　必要なライブラリとツール1.4.1　Jupyter Notebook1.4.2　NumPy1.4.3　SciPy1.4.4　matplotlib1.4.5　pandas1.4.6　mglearn1.5　Python 2 vs. Python 31.6　本書で用いているバージョン1.7　最初のアプリケーション：アイリスのクラス分類1.7.1　データを読む1.7.2　成功度合いの測定：訓練データとテストデータ1.7.3　最初にすべきこと：データをよく観察する1.7.4　最初のモデル：k-最近傍法1.7.5　予測を行う1.7.6　モデルの評価1.8　まとめと今後の展望
2.1　クラス分類と回帰2.2　汎化、過剰適合、適合不足2.2.1　モデルの複雑さとデータセットの大きさ2.3　教師あり機械学習アルゴリズム2.3.1　サンプルデータセット2.3.2　k-最近傍法2.3.3　線形モデル2.3.4　ナイーブベイズクラス分類器2.3.5　決定木2.3.6　決定木のアンサンブル法2.3.7　カーネル法を用いたサポートベクタマシン2.3.8　ニューラルネットワーク（ディープラーニング）2.4　クラス分類器の不確実性推定2.4.1　決定関数（Decision Function）2.4.2　確率の予測2.4.3　多クラス分類の不確実性2.5　まとめと展望
3.1　教師なし学習の種類3.2　教師なし学習の難しさ3.3　前処理とスケール変換3.3.1　さまざまな前処理3.3.2　データ変換の適用3.3.3　訓練データとテストデータを同じように変換する3.3.4　教師あり学習における前処理の効果3.4　次元削減、特徴量抽出、マニフォールド学習3.4.1　主成分分析（PCA）3.4.2　非負値行列因子分解（NMF）3.4.3　t-SNEを用いた多様体学習3.5　クラスタリング3.5.1　k-Means Clustering3.5.2　凝集型クラスタリング3.5.3　DBSCAN3.5.4　クラスタリングアルゴリズムの比較と評価3.5.5　クラスタリング手法のまとめ3.6　まとめと展望
4.1　カテゴリ変数4.1.1　ワンホットエンコーディング（ダミー変数）4.1.2　数値でエンコードされているカテゴリ4.2　ビニング、離散化、線形モデル、決定木4.3　交互作用と多項式4.4　単変量非線形変換4.5　自動特徴量選択4.5.1　単変量統計4.5.2　モデルベース特徴量選択4.5.3　反復特徴量選択4.6　専門家知識の利用4.7　まとめと展望
5.1　交差検証5.1.1　scikit-learnでの交差検証5.1.2　交差検証の利点5.1.3　層化k分割交差検証と他の戦略5.2　グリッドサーチ5.2.1　単純なグリッドサーチ5.2.2　パラメータの過剰適合の危険性と検証セット5.2.3　交差検証を用いたグリッドサーチ5.3　評価基準とスコア5.3.1　最終的な目標を見失わないこと5.3.2　2クラス分類における基準5.3.3　多クラス分類の基準5.3.4　回帰の基準5.3.5　評価基準を用いたモデル選択5.4　まとめと展望
6.1　前処理を行う際のパラメータ選択6.2　パイプラインの構築6.3　パイプラインを用いたグリッドサーチ6.4　汎用パイプラインインターフェイス6.4.1　make_pipelineによる簡便なパイプライン生成6.4.2　ステップ属性へのアクセス6.4.3　GridSearchCV内のパイプラインの属性へのアクセス6.5　前処理ステップとモデルパラメータに対するグリッドサーチ6.6　グリッドサーチによるモデルの選択6.7　まとめと展望

7.1　文字列として表現されているデータのタイプ7.2　例題アプリケーション：映画レビューのセンチメント解析7.3　Bag of Wordsによるテキスト表現7.3.1　トイデータセットに対するBoW7.3.2　映画レビューのBoW7.4　ストップワード7.5　tf–idfを用いたデータのスケール変換7.6　モデル係数の調査7.7　1単語よりも大きい単位のBag-of−Words (n-グラム)7.8　より進んだトークン分割、語幹処理、見出し語化7.9　トピックモデリングと文書クラスタリング7.9.1　LDA（Latent Dirichlet Allocation）7.10　まとめと展望
8.1　機械学習問題へのアプローチ8.1.1　人間をループに組み込む8.2　プロトタイプから運用システムへ8.3　運用システムのテスト8.4　独自Estimatorの構築8.5　ここからどこへ行くのか8.5.1　理論8.5.2　他の機械学習フレームワークとパッケージ8.5.3　ランキング、推薦システム、その他の学習8.5.4　確率モデル、推論、確率プログラミング8.5.5　ニューラルネットワーク8.5.6　大規模データセットへのスケール8.5.7　名誉を得る8.6　結論

Content preview from Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

3章教師なし学習と前処理

ここでは、教師なし学習と呼ばれる種類の機械学習アルゴリズムを見ていく。教師なし学習には、アルゴリズムの学習に教師情報を用いないすべての種類の機械学習が含まれる。教師なし学習では、アルゴリズムには入力データだけが与えられ、データから知識を抽出することが要求される。

3.1　教師なし学習の種類

本章では、2種類の教師なし学習を見ていく。データセットの変換とクラスタリングである。

データセットの教師なし変換（Unsupervised transformations）は、もとのデータ表現を変換して、人間や他の機械学習アルゴリズムにとって、よりわかりやすい新しいデータ表現を作るアルゴリズムのことだ。教師なし変換の利用法として最も一般的なのは次元削減だ。次元削減とは、たくさんの特徴量で構成されるデータの高次元表現を入力として、少量の本質的な特徴を表す特徴量でそのデータを表す要約方法を見つけることだ。次元削減は、可視化のために次元数を2次元に減らす際にも用いられる。

もう1つの教師なし変換のアプリケーションとして、そのデータを「構成する」部品、もしくは成分を見つけることが挙げられる。このようなアプリケーションの例としては、文書データの集合からのトピック抽出がある。このタスクは、個々のタスクから未知のトピックを見つけ出し、どの文書にどのトピックがあるかを学習する。この手法は、ソーシャルメディア上の話題（選挙、銃規制、ポップスターなど）を解析するのに有用だ。

一方、クラスタリングアルゴリズム（Clustering algorithms）は、データを似たような要素から構成されるグループに分けるアルゴリズムだ。SNSサイトに写真をアップロードすることを考えてみよう。SNSサイトは、同じ人物が写っている写真をまとめることで整理しようとする。しかし、SNSサイトには、写真に誰が写っているかわからないし、写真全体に何人の人が写っているのかもわからない。これを解決するには、写真からすべての顔を抽出して、似た顔でグループ分けする方法が考えられる。似た顔のグループは、おそらく特定の人に対応するので、それを用いて写真を整理できる。 ...