
7.4 モデルの評価 195
を望
むことはできないわけである。しかし、性能が高い理想の予測器でも性能の上限が下がるなら、
ベースラインモデルは思ったよりも手強いことがわかるだろう。
複数の人間が同じ事例を評価して訓練データを作ったときには、このように性能上限が下がることが
多い。複数の人間の判断が一致しなければ、否応なく矛盾を抱えることになる。私は、どんなにスコ
アを上げても 86.6% にしかならない問題に遭遇したことがある。教訓めいたことを言えば、人間に
はほとんど期待できないので、人間の関与を大幅に下げて努力する必要があることを認識すべきだ。
7.3.2 値予測問題のベースラインモデル
値を予測する問題では、特徴と値の対 (f
i
, v
i
) を集めたものを与えられ、F (v
i
) = f
i
になるように関数 F
を訓練する。値予測問題でも、次のように分類問題とよく似た技法でベースラインモデルを作る。
• 平均または中央値:特徴を無視し、全体の総意と言えるような値を必ず出力する。このベースライン
には意外に意味がある。いつも平均を返すような予測器と大差ない成績しか上げられない予測器しか
作れないなら、特徴に間違いがあるか、タスクが絶望的に不可能なものであることだ。
• 線形回帰:9.1 節で詳しく説明するが、現段階では、線形回帰とは、値予測問題の正解に最も近い答
えを出せる線形関数を作るということ、使いやすいが強力な技法であることを覚えておけばよいだろ
う。このベースラインは、非線形モデルの性能の判断に適している。非線形モデルが線形判別よりも ...