Skip to Content
Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
May 2018
Intermediate to advanced
556 pages
13h 21m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
5.5
 詳細:ナイーブベイズ分類
389
5.5.3
 多項分布ナイーブベイズ
前の例で説明したガウスの仮定は、各ラベルの生成分布を指定する際に使用できる単純な仮定の
1
つにすぎません。もう
1
つの有用な例は、単純な多項分布から生成されると仮定した多項分布ナ
イーブベイズ
Multinomial Naive Bayes
)です。多項分布は、複数のカテゴリがどれだけ観測され
るかの確率を表しているので、多項分布ナイーブベイズは出現数または出現レートレートを表す特
徴量に最も適しています。
最良のガウス分布を持つデータ分布をモデル化するのではなく、最適な多項分布を用いてデータ
分布をモデル化するという点を除けば、考え方は前の例とまったく同じです。
5.5.3.1
 事例:テキストの分類
多項分布ナイーブベイズが頻繁に使用される問題の
1
つが、文書内の語数または単語の出現頻度
に関連するテキスト分類です。このような特徴量の抽出につい
ては、「5.4 特徴量エンジニアリン
グ」で説明しました。ここでは、
20
個のニュースグループのコーパスから得られる単語数を用い、
短い文書をカテゴリに分類する方法を示します。
データをダウンロードして、ニュースグループ名を見てみましょう。
In[7]: from sklearn.datasets import fetch_20newsgroups
data = fetch_20newsgroups()
data.target_names
Out[7]: ['alt.atheism',
'comp.graphics', ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
初めてのGraphQL ―Webサービスを作って学ぶ新世代API

初めてのGraphQL ―Webサービスを作って学ぶ新世代API

Eve Porcello, Alex Banks, 尾崎 沙耶, あんどうやすし

Publisher Resources

ISBN: 9784873118413Other