3章教師なし学習と前処理

ここでは、教師なし学習と呼ばれる種類の機械学習アルゴリズムを見ていく。教師なし学習には、アルゴリズムの学習に教師情報を用いないすべての種類の機械学習が含まれる。教師なし学習では、アルゴリズムには入力データだけが与えられ、データから知識を抽出することが要求される。

3.1 教師なし学習の種類

本章では、2種類の教師なし学習を見ていく。データセットの変換とクラスタリングである。

データセットの教師なし変換(Unsupervised transformations)は、もとのデータ表現を変換して、人間や他の機械学習アルゴリズムにとって、よりわかりやすい新しいデータ表現を作るアルゴリズムのことだ。教師なし変換の利用法として最も一般的なのは次元削減だ。次元削減とは、たくさんの特徴量で構成されるデータの高次元表現を入力として、少量の本質的な特徴を表す特徴量でそのデータを表す要約方法を見つけることだ。次元削減は、可視化のために次元数を2次元に減らす際にも用いられる。

もう1つの教師なし変換のアプリケーションとして、そのデータを「構成する」部品、もしくは成分を見つけることが挙げられる。このようなアプリケーションの例としては、文書データの集合からのトピック抽出がある。このタスクは、個々のタスクから未知のトピックを見つけ出し、どの文書にどのトピックがあるかを学習する。この手法は、ソーシャルメディア上の話題(選挙、銃規制、ポップスターなど)を解析するのに有用だ。

一方、クラスタリングアルゴリズム(Clustering algorithms)は、データを似たような要素から構成されるグループに分けるアルゴリズムだ。SNSサイトに写真をアップロードすることを考えてみよう。SNSサイトは、同じ人物が写っている写真をまとめることで整理しようとする。しかし、SNSサイトには、写真に誰が写っているかわからないし、写真全体に何人の人が写っているのかもわからない。これを解決するには、写真からすべての顔を抽出して、似た顔でグループ分けする方法が考えられる。似た顔のグループは、おそらく特定の人に対応するので、それを用いて写真を整理できる。 ...

Get Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 now with O’Reilly online learning.

O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.