Skip to Content
Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
February 2024
Intermediate to advanced
576 pages
9h 17m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

45章詳細:主成分分析

ここまでは、教師あり学習推定器(ラベル付き学習データに基づいてラベルを予測する推定器)を詳しく見てきました。ここからは、既知のラベルを参照することなくデータの興味深い側面を明らかにする、教師なし学習推定器について学びます。

この章では、教師なしアルゴリズムの中でおそらく最も広く使用されているアルゴリズムの1つである、主成分分析(PCA:principal component analysis)を紹介します。PCAは基本的に次元削減アルゴリズムですが、可視化、ノイズフィルタリング、特徴抽出、特徴量エンジニアリングなどのツールとしても有益です。PCAアルゴリズムを概念的に説明した後、いくつかの例を探ることにします。

最初に、標準的なモジュールをインポートします。

In [1]: %matplotlib inline
        import numpy as np
        import matplotlib.pyplot as plt
        plt.style.use('seaborn-whitegrid')

45.1 主成分分析の基礎

主成分分析は、データ次元削減のための高速かつ柔軟な教師なし学習手法であり、「38章 scikit-learnの基礎」ですでに簡単に紹介しました。2次元のデータは、振る舞いを最も簡単に可視化できます。200個のデータポイントで考えてみましょう(図45-1を参照)。

In [2]: rng = np.random.RandomState(1)
        X = np.dot(rng.rand(2, 2), rng.randn(2, 200)).T
        plt.scatter(X[:, 0], X[:, 1])
        plt.axis('equal');

図45-1 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
推薦システム実践入門 ―仕事で使える導入ガイド

推薦システム実践入門 ―仕事で使える導入ガイド

風間 正弘, 飯塚 洸二郎, 松村 優也
プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

Matt LeMay, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 高橋 一貴

Publisher Resources

ISBN: 9784814400638Publisher Website