
342 11 章 機械学習
文書
聖書
本書
『
Who'sBigger?』
単語 重み 単語 重み 単語 重み
図 11 -11 ト
ピックモデル(LDA)の具体例。3 冊の本のトピックの分布を示している(左)。それぞれの
トピックは、単語のリストによって表現されている。トピックにおける単語の重要性の指標とし
て重みが計算されている(右)。文書は単語の集まりで構成されているものと考える。LDA は、
教師なしの手法でトピックと関連性が高い単語を同時に推論する。
11.5.3 半教師あり学習
半教師あり学習は、教師あり学習と教師なし学習の間に位置するもので、わずかな量のラベル付き訓練
データをもとにして、その数を増やす。少数のデータ例から多数のデータ例を作り出すことは、「pulling
yourself up from your bootstraps」(自力でやり遂げる、自助努力)という表現からブートストラップと呼ば
れている。半教師あり学習は、必要とされる量の訓練セットを構築するためにカンニングをする生徒のよう
なものである。
(x
i
, y
i
) の形でラベル付けされた少数のデータ例と、ラベルがわからない大量の入力 x
j
があるとする。こ
の訓練セットは、直接モデルを作るためでなく、ラベルなし事例の分類に使うことができる。最近傍法や、
本書で取り上げてきた他の方法を使って分類すればよい。しかし、ラベルなしデータを分類したら、分類か
ら得られたラベルは正しいものと想定して、拡張した訓練データを使ってモデルを訓練する。