
9.6 分類とロジスティック回帰 265
てそれよりもわずかによくフィットするモデルよりも頑健なモデルになる。
このトレードオフをどのように調節するかは、かなりの部分が好みによって左右されるが、役立つ指標が
いくつかある。特に有名なのは、赤池情報量規準(
Akaike Information Criteria:AIC)とベイズ情報量規準
(Bayesian Information Criteria:BIC)である。本書ではこれらについてこれ以上深入りしないので、現時点
ではこれらの指標は何かのおまじないだと考えておけばよい。しかし、最適化/評価システムは、作成され
たモデルのこれらの指標を出力することがある。パラメータ値の異なるモデルとの比較のためである。
Lasso 回帰やリッジ回帰は大きさに基づいて係数にペナルティを与えるが、パラメータをちょうど k 個に
したいときに係数を明示的に 0 にしてくれるわけではない。モデルから不要な変数を取り除くのは、人間の
仕事である。自動特徴選択関数は小さな係数を 0 にして特徴を取り除くことがあるが、一般に明示的に特徴
のあらゆる部分集合からモデルを作るのは計算効率上実現不可能である。
最初に取り除くべき特徴は、(a) 係数が小さいもの、(b) 目的関数との相関が弱いもの、(c) モデル内の他
の特徴との相関が高いもの、(d) ターゲットとの間に説明可能な関係がないもの、である。例えば、かつて
ある有名な研究において、アメリカの GNP とバングラデシュの年間バ ...