
332 11 章 機械学習
ク回帰に
この数値を与えた方が良い尺度になる。二値分類問題があるものとして、f
i
は入力ベクトル X
i
の
クラスとして C
1
を選んだものの割合であるとする。決定木アンサンブルに訓練セット全体を読ませ、f
i
を
入力変数、X
i
のクラスを出力変数とするロジスティック回帰問題を定義する。得られたロジット関数は、
観測された合意の割合に対して適切な確信度を返すものになる。
11.3 ブースティングとアンサンブル学習
ノイズが混入した多数の「予測」を 1 つにまとめて強力な分類器を作るという考え方は、集団だけでなく
アルゴリズムにも応用できる。多くの異なる特徴がいずれも従属変数と弱い相関を持っていることは珍しく
ない。では、それらをまとめて 1 つの強力な分類器を作る方法としては何が最良なのだろうか。
11.3.1 分類器による投票
アンサンブル学習は、多くの異なる分類器を結合して大きな予測器にするという考え方である。11.1 節で
取り上げた単純ベイズ法は、個々の特徴を別々の比較的弱い分類器として扱い、それらの総乗を求めている
ので、アンサンブル学習の要素を少しだけ持っていると言える。線形回帰やロジスティック回帰も、個々の
特徴に重みを付け、アンサンブルの予測能力を最大化するという点で同じことが言える。
しかし、もっと一般的な形では、アンサンブル学習は投票という考え方を中心としている。先ほど、決定
木は、無作為な部分集合を使って数百、数千の木構造を作り、それらの結果を集計した方が強力になるこ ...