Skip to Content
Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
May 2018
Intermediate to advanced
556 pages
13h 21m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
464
5
章 機械学習
ます。クラスタリングアルゴリズムは、データの特性から、ポイント群の最適な分割または離散ラ
ベル付けを学習します。
scikit-learn
では数多くのクラスタリングアルゴリズムが提供されていますが、理解しやすく最も
単純なアルゴリズムは
k
平均法(
k-means
)クラスタリングと呼ばれ、
sklearn.cluster.KMeans
で実
装されています。標準的なモジュールを最初にインポートします。
In[1]: %matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns; sns.set() # for plot styling
プロットのスタイルを決める
import numpy as np
5.11.1
k
平均法の基礎
k
平均法アルゴリズムは、ラベル付けされていない多次元データセット内で与えられた数のクラ
スタを探します。これは、最適なクラスタリングはどのように見えるかという、次のような単純な
概念を使用します。
「クラスタの中心」は、クラスタに属するすべてのポイントの算術平均である。
各ポイントは、他のクラスタ中心よりも自分の属するクラスタの中心に近い。
この
2
つの前提が、
k
平均法モデルの基礎となります。アルゴリズムがどのようにしてこの解に
至るかについては、後で紹介しますが、まずは単純なデータセットに
k
平均法を適用した結果を見
てみましょう。
まず、
4
つの異なる集団からなる
2
次元のデ
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
初めてのGraphQL ―Webサービスを作って学ぶ新世代API

初めてのGraphQL ―Webサービスを作って学ぶ新世代API

Eve Porcello, Alex Banks, 尾崎 沙耶, あんどうやすし

Publisher Resources

ISBN: 9784873118413Other