
7.5 評価システム 205
は、∆ =
2 のときの ∆
2
の 4 倍であり、大きい誤差があると結果が不釣り合いに大きくなる。そのた
め、大規模なアンサンブル学習では、外れ値があっという間に統計誤差に影響を与えてしまう。
値予測器の絶対誤差の分布をヒストグラムにするとよい。このヒストグラムからは多くのことが学べる。
誤差の分布は対称的になるはずであり、その中心は 0 の近辺になるはずである。また、小さな誤差の方が大
きな誤差よりも多いことを示すベル型になるはずである。これらの中に当てはまらないものがあれば、予測
関数を改善する簡単な方法があるはずだ。例えば、中心が 0 にならない場合には、すべての予測値に定数の
オフセットを加えれば、全体の結果が向上する。
図 7 -8 は、語彙の分布から文書が書かれた年を予測する 2 つのモデルの絶対誤差分布を示している。左
側は、1800 年から 2005 年までの作成年を無作為に抽出するモンキーの誤差分布である。何がわかるだろう
か。誤差分布が広範でひどいものであることは予想通りだが、対称的でないという特徴もある。正の誤差を
生んだ文書の方が負の誤差を生んだ文書よりもはるかに多い。なぜだろうか。テストコーパスには、古い文
書よりも新しい文書の方が多く含まれていたのである。そのため、(年 − モンキー年) が負数になるときよ
りも正数になるときの方が多くなっているのだ。猿でも分布を見れば何かを学習するというわけである。
それに対し、図 7 -8(右)は、文書作成年の単純ベイズ分類器の誤差分布を示してい ...