
14
1
章 機械学習エコシステムにおける教師なし学習の立ち位置
習は決定木を増やしていくことで行われる。すべての決定木ベース法の中でも、勾配ブースティング
器は最高の性能を示し、機械学習コンペにおいても数々の優勝を収めている
*
1
。
利点
決定木ベースの手法は、予測問題に対する教師あり学習アルゴリズムの中では、最高の性能
を示す。これらの手法は、単純なルールを
1
つずつ学習することで、データ中の複雑な関係
を捉えることができる。また欠損データがある場合やカテゴリ特徴量を使う場合でも、うまく
動作する。
欠点
決定木ベースの手法は、予測に必要なルールが増えてくると、解釈が難しくなる。また特徴
量の数が大きくなると性能も問題になる。
応用
勾配ブースティングとランダムフォレストは、予測問題に広く使われている。
1.5.4
サポートベクタマシン
決定木を用いてデータを分離する代わりに、データに付けられたラベルを用いて空間に超平面を作
り、それを用いてデータを分離するアルゴリズムがある。この手法は、サポートベクタマシン(
SVM
:
Support Vector Machine
)と 呼 ば れ る 。
SVM
では、超平面による分割に例外があっても構わない。つ
まり超平面の片側にあるデータポイントがすべて同じラベルである必要はない。あるラベルの境界を
定める点と別のラベルの境界を定める点との距離を最大化する。また、境界は線形である必要はない。
非線形カーネルを使えば、より柔軟にデータを分割できる。
1.5.5
ニューラルネットワーク