2章データのロード

レシピ2.0　はじめに

　どんな機械学習プロジェクトでも、生データをシステムに取り込むことが最初のステップとなる。生データはログファイルの場合もあるし、データセットファイルの場合もあるし、データベースの場合もあるし、Amazon S3などのクラウドブロブストアの場合もある。さらに、1つではなく複数のデータソースからデータを取得したい場合も多い。

　本章のレシピでは、さまざまなデータソースからデータをロードする手法を紹介する。CSVファイルやSQLデータベースも対象となる。さらに、実験のために、望ましい性質を持つデータをシミュレーションで生成する方法も説明する。Pythonのエコシステムには、さまざまなデータロード手法が用意されているが、本章では、外部データの取り込みに関してはpandasライブラリの膨大なメソッド群を用い、シミュレーションデータの生成にはscikit-learn（オープンソースの機械学習ライブラリ）を用いる。

レシピ2.1　サンプルデータセットのロード

問題

既存のサンプルデータセットをscikit-learnのライブラリからロードしたい。

解決策

　scikit-learnには、簡単に利用できる一般的なデータセットが多数用意されている。

# scikit-learnのdatasetsをロード from sklearn import datasets # digitデータセットをロード digits = datasets.load_digits() # 特徴量行列を作成 features = digits.data # ターゲットベクトルを作成 target = digits.target # 最初の観測値を表示 features[0] ...

Get Python機械学習クックブック第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.

Start your free trial

Python機械学習クックブック第2版 by Kyle Gallatin, Chris Albon, 中田秀基

2章データのロード

レシピ2.0　はじめに

レシピ2.1　サンプルデータセットのロード

問題

解決策

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

2章データのロード

レシピ2.0 はじめに

レシピ2.1 サンプルデータセットのロード

問題

解決策

Don’t leave empty-handed

It’s yours, free.

Check it out now on O’Reilly

レシピ2.0　はじめに

レシピ2.1　サンプルデータセットのロード