Skip to Content
Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
February 2024
Intermediate to advanced
576 pages
9h 17m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

49章詳細:カーネル密度推定

「48章 詳細:混合ガウスモデル」では、クラスタリング推定器と密度推定器のハイブリッドある混合ガウスモデルについて説明しました。密度推定器は、D次元のデータセットから、そのデータの元となるD次元確率分布の推定値を生成するアルゴリズムであることを思い出してください。GMMアルゴリズムは、密度をガウス分布の加重和として表します。カーネル密度推定(KDE:Kernel Density Estimation)は、ガウス分布を重ね合わせるというアイデアを突き詰めた考え方です。ポイントごとに1つのガウス分布を重ね合わせて、本質的にノンパラメトリックな密度推定を行います。この章では、KDEの必要性と使用法について説明します。

最初に標準的なモジュールをインポートします。

In [1]: %matplotlib inline
        import matplotlib.pyplot as plt
        plt.style.use('seaborn-whitegrid')
        import numpy as np

49.1 カーネル密度推定の必要性:ヒストグラム

すでに説明したように、密度推定器はデータセットを生成した確率分布をモデル化するアルゴリズムです。1次元データの場合、ヒストグラムという単純な密度推定器については熟知しているはずです。ヒストグラムは、データを個別のビンに分割し、各ビンに含まれるポイント数を数え、直感的な方法で結果を可視化します。

例えば、2つの正規分布から得られるデータを作成します。

In [2]: def make_data(N, f=0.3, rseed=1): rand = np.random.RandomState(rseed) x = rand.randn(N) ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
推薦システム実践入門 ―仕事で使える導入ガイド

推薦システム実践入門 ―仕事で使える導入ガイド

風間 正弘, 飯塚 洸二郎, 松村 優也
プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

Matt LeMay, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 高橋 一貴

Publisher Resources

ISBN: 9784814400638Publisher Website