Skip to Content
データサイエンスのための統計学入門 第2版 ―予測、分類、統計モデリング、統計的機械学習とR/Pythonプログラミング
book

データサイエンスのための統計学入門 第2版 ―予測、分類、統計モデリング、統計的機械学習とR/Pythonプログラミング

by Peter Bruce, Andrew Bruce, Peter Gedeck, 黒川 利明, 大橋 真也
November 2020
Intermediate to advanced
396 pages
8h 34m
Japanese
O'Reilly Japan, Inc.
Content preview from データサイエンスのための統計学入門 第2版 ―予測、分類、統計モデリング、統計的機械学習とR/Pythonプログラミング
240
5
章 分類
print('percentage of loans predicted to default: ',
100 * np.mean(full_model.predict(X) == 'default'))
ローンの
0.39 %
しか返済不能と予測されず、期待される個数の
1/47
以下だ
1
。モ
が、全データを等価に使って訓練されたものだから、ローン完済がローン返済不能より
圧倒的に多い。直感的に考えれば、返済不能でないローンがこんなに多数あり、予測
データの不可避的な変動と相まって、ローン返済不能に関してすら、モデルが偶然に
同様の間違ったものを見つけてしまうことが多いのだ。均衡サンプルを使うと、ローン
の約
50 %
が返済不能と予測される。
5.5.2
 オーバーサンプリングと重み追加
/
削減
アンダーサンプリング法に対する批判の
1
つは、データを捨ててしまって、使える情
報すべてを活用していないというものだ。比較的小さなデータセットで、より稀なクラ
スに数百または数千レコードしかなかったら、優勢なクラスのアンダーサンプリングに
は、有用な情報を捨てるリスクがある。その場合、優勢な事例をダウンサンプリングし
ないで、稀なクラスで復元抽出(ブートストラップ)により行を追加するオーバーサンプ
リング(アップサンプリング)を行うべきだ。
データの重み付けでも同様の効果が得られる。分類アルゴリズムの多くで、データ
の重みを追加
/
削減できる重み引数を使うことができる。例えば、
R
glm
では
weight ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

マスタリングLinuxシェルスクリプト 第2版 ―Linuxコマンド、bashスクリプト、シェルプログラミング実践入門

マスタリングLinuxシェルスクリプト 第2版 ―Linuxコマンド、bashスクリプト、シェルプログラミング実践入門

Mokhtar Ebrahim, Andrew Mallett, 萬谷 暢崇, 原 隆文

Publisher Resources

ISBN: 9784873119267Other