2章データのロード

レシピ2.0 はじめに

 どんな機械学習プロジェクトでも、生データをシステムに取り込むことが最初のステップとなる。生データはログファイルの場合もあるし、データセットファイルの場合もあるし、データベースの場合もあるし、Amazon S3などのクラウドブロブストアの場合もある。さらに、1つではなく複数のデータソースからデータを取得したい場合も多い。

 本章のレシピでは、さまざまなデータソースからデータをロードする手法を紹介する。CSVファイルやSQLデータベースも対象となる。さらに、実験のために、望ましい性質を持つデータをシミュレーションで生成する方法も説明する。Pythonのエコシステムには、さまざまなデータロード手法が用意されているが、本章では、外部データの取り込みに関してはpandasライブラリの膨大なメソッド群を用い、シミュレーションデータの生成にはscikit-learn(オープンソースの機械学習ライブラリ)を用いる。

レシピ2.1 サンプルデータセットのロード

問題

既存のサンプルデータセットをscikit-learnのライブラリからロードしたい。

解決策

 scikit-learnには、簡単に利用できる一般的なデータセットが多数用意されている。

# scikit-learnのdatasetsをロード from sklearn import datasets # digitデータセットをロード digits = datasets.load_digits() # 特徴量行列を作成 features = digits.data # ターゲットベクトルを作成 target = digits.target # 最初の観測値を表示 features[0] ...

Get Python機械学習クックブック 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.