
5.1
ナイーブベイズ
■
207
probabilities = pd.DataFrame(naive_model.predict_proba(new_loan),
columns=loan_data[outcome].cat.categories)
print('predicted probabilities', probabilities)
predicted class: default
predicted probabilities
default paid off
0 0.653696 0.346304
予測では、返済不能の事後確率も推定する。ナイーブベイズ分類は、バイアスのあ
る推定を行うことが知られている。しかし、目標が
Y
=
1
の確率に従って、レコードを
順位付けすることである場合、バイアスのない不偏推定確率は必要なく、ナイーブベイ
ズで良い結果が得られる。
5.1.3
数値予測変数
定義から、ベイズ分類がカテゴリ予測変数でしかうまくいかない(例:スパム分類に
おいては、単語、句、文字などの存在あるいは欠如が、予測の核心を占める)のがわか
る。数値予測変数にナイーブベイズを適用するには、次の
2
つの方式のどちらかをとる。
●
ビン分けして数値予測変数をカテゴリ変数に変換し、前節のアルゴリズムを適用
する。
●
例えば、正規分布(「2.6 正規分布」参照)のような確率モデルを用い、条件付き
確率
P
(
X
j
| Y
=
i
)
を推定する。
訓練データに予測変数のカテゴリが存在しない場合、アルゴリズムは、他の ...