book

Pythonデータサイエンスハンドブック第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池彰

February 2024

Intermediate to advanced

576 pages

9h 17m

Japanese

O'Reilly Japan, Inc.

Read now

Unlock full access

データサイエンスとは？本書が対象とする読者なぜPythonなのか本書の概要Pythonのインストール本書の表記法コード例の利用オライリー学習プラットフォーム連絡先
1.1　IPythonシェルの起動1.2　Jupyter Notebookの起動1.3　IPythonのヘルプシステムとドキュメント1.3.1　?文字を使ったドキュメントの検索1.3.2　??文字を使ったソースコードの探索1.3.3　Tab補完を使ったモジュールの調査1.4　IPythonシェルのキーボードショートカット1.4.1　ナビゲーションショートカット1.4.2　テキスト入力ショートカット1.4.3　コマンド履歴ショートカット1.4.4　その他のショートカット
2.1　IPython Magicコマンド2.1.1　外部コードの実行：%run2.1.2　コードの実行時間計測：%timeit2.1.3　Magicコマンドのヘルプ：?、%magic、%lsmagic2.2　入力と出力の履歴2.2.1　IPythonのIn/Outオブジェクト2.2.2　アンダースコアショートカットと過去の出力2.2.3　出力の抑止2.2.4　関連するMagicコマンド2.3　IPythonとシェルコマンド2.3.1　シェルの概要2.3.2　IPythonからのシェルコマンド実行2.3.3　シェルとの値の受け渡し2.3.4　シェルに関連するMagicコマンド

3.1　エラーとデバッグ3.1.1　例外の制御：%xmode3.1.2　デバッグ：トレースバックの情報では不十分な場合3.2　コードのプロファイリングと実行時間の計測3.2.1　コード断片の実行時間を計測する：%timeitと%time3.2.2　コード全体のプロファイリング：%prun3.2.3　%lprunによる行単位のプロファイリング3.2.4　メモリのプロファイリング：%memitと%mprun3.3　その他のIPythonリソース3.3.1　Webリソース3.3.2　書籍
組み込みドキュメントについての注意点
4.1　単なる整数ではないPythonの整数4.2　単なるリストではないPythonのリスト4.3　Pythonの型固定配列4.4　PythonリストからNumPy配列作成4.5　NumPy配列の作成4.6　NumPyの標準データ型
5.1　NumPy配列の属性5.2　配列インデクス：配列の要素にアクセスする5.3　配列のスライス：部分配列にアクセスする5.3.1　1次元配列のスライス5.3.2　多次元配列のスライス5.3.3　コピーではなくビューである部分配列5.3.4　配列のコピー5.4　配列の形状変更5.5　配列の連結と分割5.5.1　配列の連結5.5.2　配列の分割
6.1　低速なループ処理6.2　ufuncの基礎6.3　NumPy ufuncの探求6.3.1　配列演算6.3.2　絶対値6.3.3　三角関数6.3.4　指数関数と対数関数6.3.5　専門的なufunc6.4　高度なufuncの機能6.4.1　出力の指定6.4.2　集約6.4.3　直積6.5　ufunc：より詳しく
7.1　配列の合計7.2　最大と最小7.2.1　多次元配列の集約7.2.2　その他の集約関数7.3　事例：米国大統領の平均身長は？
8.1　ブロードキャストの基礎8.2　ブロードキャストのルール8.2.1　ブロードキャスト例18.2.2　ブロードキャスト例28.2.3　ブロードキャスト例38.3　ブロードキャストの実践8.3.1　配列のセンタリング8.3.2　2次元関数のプロット
9.1　事例：雨天日数9.2　ufuncの比較演算子9.3　ブール値配列の操作9.3.1　要素のカウント9.3.2　ブール演算子9.4　マスクとしてのブール値配列9.5　キーワードと演算子（andとor、&と|）
10.1　ファンシーインデクスの探求10.2　インデクスの組み合わせ10.3　事例：ランダムポイントの選択10.4　ファンシーインデクスを使った値の変更10.5　事例：ヒストグラム化のためのデータ分類
11.1　NumPyの高速ソート：np.sortとnp.argsort11.2　行または列に沿ったソート11.3　部分ソート：分割（partitioning）11.4　事例：k近傍法
12.1　構造化配列の作成方法12.2　より高度な複合型12.3　RecordArrays：構造化配列の変形版12.4　pandasへ
組み込みドキュメント再掲
13.1　Seriesオブジェクト13.1.1　一般化したNumPy配列としてのSeries13.1.2　特殊な辞書としてのSeries13.1.3　Seriesオブジェクトの作成13.2　DataFrameオブジェクト13.2.1　一般化したNumPy配列としてのDataFrame13.2.2　特殊な辞書としてのDataFrame13.2.3　DataFrameオブジェクトの作成13.3　Indexオブジェクト13.3.1　不変配列としてのIndex13.3.2　順序付き集合（set）としてのIndex
14.1　Seriesのデータ選択14.1.1　辞書としてのSeries14.1.2　1次元配列としてのSeries14.1.3　インデクス属性：locとiloc14.2　DataFrameのデータ選択14.2.1　辞書としてのDataFrame14.2.2　2次元配列としてのDataFrame14.2.3　その他のインデクス規則
15.1　ufunc：インデクスの保存15.2　ufunc：インデクスの整列15.2.1　Seriesオブジェクトのインデクス整列15.2.2　DataFrameオブジェクトのインデクス整列15.3　ufunc：DataFrameとSeriesとの演算
16.1　欠損値表現のトレードオフ16.2　pandasの欠損値16.2.1　特殊値None16.2.2　数値データの欠損値NaN16.2.3　pandasにおけるNaNとNone16.3　null可能なdtype16.4　null値が存在する場合の処理16.4.1　null値の検出16.4.2　欠損値の除外16.4.3　欠損値への値設定
17.1　多重インデクスを持つSeries17.1.1　誤った方法17.1.2　より良い方法：MultiIndex17.1.3　多次元のMultiIndex17.2　MultiIndexの作成手段17.2.1　明示的なMultiIndexの作成17.2.2　MultiIndexの階層名17.2.3　列に対するMultiIndex17.3　MultiIndexのインデクス指定とスライス17.3.1　多重インデクスSeries17.3.2　多重インデクスDataFrame17.4　多重インデクスの並べ替え17.4.1　ソートされたインデクスとソートされていないインデクス17.4.2　インデクスのstackとunstack17.4.3　インデクスの設定と再設定
18.1　再掲：NumPy配列の連結18.2　pd.concatによる単純な連結18.2.1　インデクスの重複18.2.2　joinによる連結18.2.3　appendメソッド
19.1　関係代数19.2　結合の種類19.2.1　1対1結合19.2.2　多対1結合19.2.3　多対多結合19.3　キーの指定19.3.1　onオプション19.3.2　left_onとright_onオプション19.3.3　left_indexとright_indexオプション19.4　結合に対する集合演算の指定19.5　列名の重複：suffixesオプション19.6　事例：米国州データ
20.1　惑星（planets）データ20.2　pandasによる単純な集約20.3　groupby：分割、適用、結合20.3.1　分割、適用、結合20.3.2　GroupByオブジェクト20.3.3　集約、フィルタ、変換、適用20.3.4　分割キーの指定20.3.5　グループ化の例
21.1　ピボットテーブルの必要性21.2　手作業のピボットテーブル作成21.3　ピボットテーブルの構文21.3.1　多重ピボットテーブル21.3.2　その他のピボットテーブルオプション21.4　事例：出生率データ
22.1　pandas文字列操作の基礎22.2　pandas文字列操作メソッドの一覧22.2.1　Pythonの文字列メソッドと類似のメソッド22.2.2　正規表現を使用するメソッド22.2.3　その他のメソッド22.3　事例：レシピデータベース22.3.1　単純なレシピ推奨システム22.3.2　さらにレシピについて
23.1　Pythonの日付と時刻23.1.1　Python組み込みの日付と時刻：datetimeとdateutil23.1.2　時間の型付き配列：NumPyのdatetime6423.1.3　pandasの日付と時刻：両者のいいとこ取り23.2　pandasの時系列：時刻によるインデクス23.3　pandasの時系列データ構造23.4　規則的なシーケンス：pd.date_range23.5　頻度とオフセット23.6　再サンプリング、シフト、ウィンドウ23.6.1　再サンプリングと頻度変換23.6.2　時間シフト23.6.3　移動するウィンドウ関数さらに学ぶために23.7　事例：シアトル市の自転車数の可視化23.7.1　データの可視化23.7.2　データの深掘り
24.1　queryとevalの必要性：複合表現24.2　pandas.evalによる効率的実行24.3　DataFrame.evalによる列単位の操作24.3.1　DataFrame.evalを使用した代入24.3.2　DataFrame.eval内のローカル変数24.4　DataFrame.queryメソッド24.5　パフォーマンス：これらの機能を使うべき場合24.6　参考資料
25.1　Matplotlibのインポート25.2　スタイルの設定25.3　showするかshowしないか？描画を表示する方法25.3.1　Pythonスクリプトからプロット25.3.2　IPythonシェルからプロット25.3.3　Jupyter Notebookからプロット25.3.4　結果のファイル保存25.3.5　同じ結果を得る2つのインターフェイス
26.1　プロットの制御：線の色とスタイル26.2　プロットの制御：座標軸の範囲26.3　プロットへのラベル付け26.4　Matplotlib雑学
27.1　plt.plotを使った散布図27.2　plt.scatterを使った散布図27.3　plotメソッド対scatterメソッド：効率に関する注意点27.4　誤差の可視化27.4.1　基本的なエラーバー27.4.2　連続誤差
28.1　3次元関数の可視化28.2　ヒストグラム、ビニング、密度28.3　2次元のヒストグラムとビニング28.3.1　plt.hist2d：2次元ヒストグラム28.3.2　plt.hexbin：六角形のビニング28.3.3　カーネル密度推定
29.1　凡例要素の選択29.2　点の大きさの凡例29.3　複数の凡例
30.1　カラーバーのカスタマイズ30.1.1　カラーマップの選択30.1.2　色の範囲制限と拡張30.1.3　離散的カラーバー30.2　事例：手書きの数字
31.1　plt.axes：手作業によるサブプロット作成31.2　plt.subplot：サブプロットの単純なグリッド31.3　plt.subplots：グリッド全体を一度に作成31.4　plt.GridSpec：より複雑な配置
32.1　事例：米国出生率における休日の影響32.2　テキスト位置の変換32.3　矢印と注釈
33.1　主目盛と補助目盛33.2　非表示の目盛とラベル33.3　目盛の増減33.4　目盛フォーマットの調整33.5　FormatterとLocatorのまとめ
34.1　手作業でカスタマイズ34.2　デフォルトの変更：rcParams34.3　スタイルシート34.3.1　デフォルトスタイル34.3.2　FiveThirtyEightスタイル34.3.3　ggplot34.3.4　ハッカーのためのベイジアンメソッドスタイル34.3.5　暗い背景スタイル34.3.6　グレースケール34.3.7　seabornスタイル
35.1　3次元の点と線35.2　3次元等高線図35.3　ワイヤーフレームとサーフェス35.4　三角分割のサーフェス35.5　事例：メビウスの帯の可視化
36.1　seabornプロットの調査36.1.1　ヒストグラム、KDE、密度36.1.2　ペアプロット36.1.3　層別ヒストグラム36.2　カテゴリプロット36.2.1　結合分布36.2.2　棒グラフ36.3　事例：マラソンの完走時間の調査36.4　その他のリソース36.5　その他のPython用可視化ライブラリ
37.1　機械学習の分類37.2　機械学習の定性的応用例37.2.1　分類：離散ラベルの予測37.2.2　回帰：連続ラベルの予測37.2.3　クラスタリング：ラベルなしデータのラベル推定37.2.4　次元削減：ラベルなしデータ構造の推定37.3　まとめ
38.1　scikit-learnのデータ表現38.1.1　特徴量行列38.1.2　目的配列38.2　scikit-learnの推定器API38.2.1　APIの基礎38.2.2　教師あり学習例：線形回帰38.2.3　教師あり学習の事例：アイリスの分類38.2.4　教師なし学習の事例：アイリス次元数38.2.5　教師なし学習の例：アイリスクラスタリング38.3　応用：手書き数字の調査38.3.1　数字データの読み込みと可視化38.3.2　教師なし学習：次元削減38.3.3　数字の分類38.4　まとめ
39.1　モデル検証に関する考察39.1.1　誤ったモデル検証方法39.1.2　正しいモデル検証方法：ホールドアウトセット39.1.3　交差検証によるモデルの検証39.2　最適なモデルの選択39.2.1　バイアス-バリアンストレードオフ39.2.2　scikit-learnを使用した検証曲線の作成39.3　学習曲線39.4　検証の実践：グリッドサーチ39.5　まとめ
40.1　カテゴリ特徴量40.2　テキスト特徴量40.3　画像特徴量40.4　導出特徴量40.5　欠損データの補完40.6　特徴量パイプライン
41.1　ベイズ分類41.2　ガウシアンナイーブベイズ41.3　多項分布ナイーブベイズ41.3.1　事例：テキストの分類41.4　ナイーブベイズをいつ使用すべきか
42.1　単回帰42.2　基底関数回帰42.2.1　多項式基底関数42.2.2　ガウス基底関数42.3　正則化42.3.1　リッジ回帰（L2正則化）42.3.2　Lasso正則化（L1）42.4　事例：自転車の交通量予測
43.1　サポートベクターマシンの必要性43.2　サポートベクターマシン：マージンの最大化43.2.1　サポートベクターマシンへの当てはめ43.2.2　線形には分類できないデータ：カーネルSVM43.2.3　SVMの調整：ソフトマージン43.3　事例：顔認識43.4　まとめ
44.1　ランダムフォレストの必要性：決定木44.1.1　決定木の作成44.1.2　決定木と過剰適合44.2　推定器の組み合わせ：ランダムフォレスト44.3　ランダムフォレスト回帰44.4　事例：ランダムフォレストによる文字認識44.5　まとめ
45.1　主成分分析の基礎45.1.1　PCAによる次元削減45.1.2　PCAによる可視化：手書き数字45.1.3　成分の意味45.1.4　成分数の選択45.2　PCAによるノイズフィルタリング45.3　事例：固有顔画像45.4　まとめ
46.1　多様体学習：HELLO46.2　多次元尺度構成法（MDS）46.2.1　多様体学習としてのMDS46.2.2　非線形埋め込み：MDSがうまくいかない場合46.3　非線形多様体：局所線形埋め込み46.4　多様体学習に対する考察46.5　事例：顔画像へのIsomap適用46.6　事例：手書き数字構造の可視化
47.1　k平均法の基礎47.2　k平均法アルゴリズム：期待値最大化法47.3　事例47.3.1　事例1：手書き数字に対するk平均法47.3.2　事例2：k平均法による画像の減色
48.1　混合ガウスモデルの必要性：k平均法の弱点48.2　E-Mの一般化：混合ガウスモデル48.3　共分散の選択48.4　混合ガウスモデルによる密度推定48.5　事例：GMMによるデータの生成
49.1　カーネル密度推定の必要性：ヒストグラム49.2　カーネル密度推定の実践49.3　交差検証によるバンド幅の選択49.4　事例：単純ではないベイズ推定49.4.1　カスタム推定器の解説49.4.2　カスタム推定器の使用
50.1　HOG特徴量50.2　HOGの実践：簡単な顔検出1. 「陽性」（positive）学習サンプルセットを取得する2. 「陰性」（negative）学習サンプルセットを取得する3. データセットを組み合わせて、HOG特徴を抽出する4. サポートベクターマシンの学習を行う5. 新しい画像の顔を認識する50.3　課題と改善50.4　機械学習をさらに学ぶためのリソース

Content preview from Pythonデータサイエンスハンドブック第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

40章特徴量エンジニアリング

前の章では、機械学習の基本的な考え方を概説しましたが、これまでの例はすべて整然とした[nサンプル, n特徴量]形式の数値データが用意されている前提でした。現実の世界では、ほとんどのデータはそのような形で存在しません。この点を理解していれば、機械学習を実際に使用するための重要なステップの1つが、問題に関するあらゆる情報を取得し、特徴量行列（feature matrix）を構成する数値へ変換する作業であることがわかります。それを特徴量エンジニアリング（Feature Engineering）と呼びます。

この章では、特徴量エンジニアリング作業の一般的な例をいくつか紹介します。カテゴリデータを表す特徴量、テキスト、画像などを表す特徴量を扱います。さらに、モデルの複雑さに対応するために他の特徴量から導出された特徴量や、欠落したデータを補完する機能についても説明します。一般的に、このプロセスはベクトル化（vectorization）と呼ばれ、任意のデータを適切に動作するベクトルに変換します。

40.1　カテゴリ特徴量

一般的な非数値データの1つがカテゴリデータです。例えば、住宅価格に関するデータを調べている場合、「価格」や「部屋数」など数値の特徴量に加え、「地域（neighborhood）」に関する情報も付随しているとします。例えば、次のようなデータで考えてみましょう†1。

[†1] 訳注：Queen Anne（クィーンアン）、Fremont（フリーモント）、Wallingford（ウォーリングフォード）は、いずれもシアトル市の地域名。

In [1]: data = [ {'price': 850000, 'rooms': 4, 'neighborhood': ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Publisher Resources

ISBN: 9784814400638Publisher Website

Pythonデータサイエンスハンドブック第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池彰

40章特徴量エンジニアリング

40.1　カテゴリ特徴量

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

推薦システム実践入門 ―仕事で使える導入ガイド

プロダクトマネージャーのしごと第2版 ―1日目から使える実践ガイド

ルールズ・オブ・プログラミング ―より良いコードを書くための21のルール

Publisher Resources

40章特徴量エンジニアリング

40.1 カテゴリ特徴量

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

推薦システム実践入門 ―仕事で使える導入ガイド

プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

ルールズ・オブ・プログラミング ―より良いコードを書くための21のルール

Publisher Resources

40.1　カテゴリ特徴量

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

プロダクトマネージャーのしごと第2版 ―1日目から使える実践ガイド