2章データのロード
レシピ2.0 はじめに
どんな機械学習プロジェクトでも、生データをシステムに取り込むことが最初のステップとなる。生データはログファイルの場合もあるし、データセットファイルの場合もあるし、データベースの場合もあるし、Amazon S3などのクラウドブロブストアの場合もある。さらに、1つではなく複数のデータソースからデータを取得したい場合も多い。
本章のレシピでは、さまざまなデータソースからデータをロードする手法を紹介する。CSVファイルやSQLデータベースも対象となる。さらに、実験のために、望ましい性質を持つデータをシミュレーションで生成する方法も説明する。Pythonのエコシステムには、さまざまなデータロード手法が用意されているが、本章では、外部データの取り込みに関してはpandasライブラリの膨大なメソッド群を用い、シミュレーションデータの生成にはscikit-learn(オープンソースの機械学習ライブラリ)を用いる。
レシピ2.1 サンプルデータセットのロード
問題
既存のサンプルデータセットをscikit-learnのライブラリからロードしたい。
解決策
scikit-learnには、簡単に利用できる一般的なデータセットが多数用意されている。
# scikit-learnのdatasetsをロード from sklearn import datasets # digitデータセットをロード digits = datasets.load_digits() # 特徴量行列を作成 features = digits.data # ターゲットベクトルを作成 target = digits.target # 最初の観測値を表示 features[0] ...
Get Python機械学習クックブック 第2版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.