Skip to Content
Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
February 2024
Intermediate to advanced
576 pages
9h 17m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

48章詳細:混合ガウスモデル

前章で説明したk平均法クラスタリングモデルは単純かつ比較的理解しやすいものですが、そのシンプルさ故に実際的な問題をもたらします。特にk平均法の非確率的な性質と、クラスタメンバーを割り当てるために用いる単純なクラスタ中心からの距離の仕組みは、多くの現実的な状況において高いパフォーマンスが望めません。この章では、k平均法の背後にあるアイデアの拡張とみなせる混合ガウスモデル(GMM:Gaussian Mixture Models)を学びますが、単純なクラスタリング以上に、推定のための強力なツールにもなります。

まず標準的なモジュールをインポートします。

In [1]: %matplotlib inline
        import matplotlib.pyplot as plt
        plt.style.use('seaborn-whitegrid')
        import numpy as np

48.1 混合ガウスモデルの必要性:k平均法の弱点

k平均法の弱点を見た上で、クラスタモデルをどのように改善できるかを考えてみましょう。前の章で見たように、単純でわかりやすいデータがあれば、k平均法は適切なクラスタリング結果を見つけられます。

例えば、単純な集団を形成しているデータに対して、k平均法アルゴリズムは見た目で行うのと同じような方法で、クラスタに素早くラベルを付けられます(図48-1を参照)。

In [2]: # データの生成 from sklearn.datasets import make_blobs X, y_true = make_blobs(n_samples=400, centers=4, cluster_std=0.60, random_state=0) ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
推薦システム実践入門 ―仕事で使える導入ガイド

推薦システム実践入門 ―仕事で使える導入ガイド

風間 正弘, 飯塚 洸二郎, 松村 優也
プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

Matt LeMay, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 高橋 一貴

Publisher Resources

ISBN: 9784814400638Publisher Website