Skip to Content
Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
May 2018
Intermediate to advanced
556 pages
13h 21m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
5.2
scikit-learn
の紹介
357
クラスタ番号でデータを分割することで、
GMM
アルゴリズムが元々のラベルをどれくらい
うまく回復しているかがわかります。
setosa
種はクラスタ
0
として完全に分離されていますが、
versicolor
種と
virginica
種には多少の混合が見られます。これはつまり、個々の花の測定値に対し
て単純なクラスタリングアルゴリズムを適用することで、花の種類を自動的にグループ化できるこ
とを示しています。こうしたアルゴリズムを使って、観察したサンプル間の関係についての手がか
りを専門家に与えることができます。
図5-17 アイリスデータのガウス混合モデルによるクラスタリング
5.2.3
 応用:手書き数字の調査
より興味深い問題に対してこの原則を適用してみましょう。文字認識問題つまり手書き数字の識
別を考えます。ここには、画像内で文字の位置を特定することと、それが何の文字であるかを識
別することの、
2
つの問題があります。簡略化のために
scikit-learn
ライブラリで提供されている、
フォーマット済み数字のデータを使用します。
5.2.3.1
 数字データのロードと可視化
scikit-learn
のデータアクセスインターフェースを使用して、このデータを見てみましょう。
In[22]: from sklearn.datasets import load_digits
digits = load_digits()
digits.images.shape
Out[22]: (1797, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
初めてのGraphQL ―Webサービスを作って学ぶ新世代API

初めてのGraphQL ―Webサービスを作って学ぶ新世代API

Eve Porcello, Alex Banks, 尾崎 沙耶, あんどうやすし

Publisher Resources

ISBN: 9784873118413Other