
11.2 決定木分類器 327
は非
常にまれである。「defenestrate」という英単語を見たことがあるだろうか
*
2。もっと困るのは 1 冊の本
よりも単語数が少ないような文書である。この種の文書には、単語が 10 万語も含まれておらず、必然的に
語彙のあちらこちらに 0 が入ることになる。ラプラススムージングは、こういったカウントベクトルを意味
のある確率ベクトルに変換し、あまり使われず、普通の人が見たこともないような単語にも 0 ではない確率
を与えることができる。
11.2 決定木分類器
決定木は、任意の入力ベクトル X を分類するために使われる二分木である。木構造の各ノードには、何
らかのフィールド x
i
∈ X に対する「x
i
≧ 23.7 か?」のような単純な特徴の比較が含まれている。このよ
うな比較の結果は、真または偽であり、それによって左の子(left child)と右の子(right child)のどちらに
進むべきかが決まる。この種の木構造は、広い範囲の問題に応用できるため、分類回帰木(CART)と呼ば
れることがある。
決定木は、訓練事例を比較的同質なクラスによるグループに分類するので、判定は簡単だ。図
11 -3 は、
乗船したタイタニック号が沈没しても生き残る可能性を予測するための決定木の例である。決定木中の段階
を追っていくと、ルートからリーフまで乗客はすべて一意な経路に分類される。ルートのテストは、女性と
子どもを優先させるという海事の伝統を反映している。女性の 73 % は生 ...