Skip to Content
Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習
book

Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

by Jake VanderPlas, 菊池 彰
February 2024
Intermediate to advanced
576 pages
9h 17m
Japanese
O'Reilly Japan, Inc.
Content preview from Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

40章特徴量エンジニアリング

前の章では、機械学習の基本的な考え方を概説しましたが、これまでの例はすべて整然とした[nサンプル, n特徴量]形式の数値データが用意されている前提でした。現実の世界では、ほとんどのデータはそのような形で存在しません。この点を理解していれば、機械学習を実際に使用するための重要なステップの1つが、問題に関するあらゆる情報を取得し、特徴量行列(feature matrix)を構成する数値へ変換する作業であることがわかります。それを特徴量エンジニアリング(Feature Engineering)と呼びます。

この章では、特徴量エンジニアリング作業の一般的な例をいくつか紹介します。カテゴリデータを表す特徴量、テキスト、画像などを表す特徴量を扱います。さらに、モデルの複雑さに対応するために他の特徴量から導出された特徴量や、欠落したデータを補完する機能についても説明します。一般的に、このプロセスはベクトル化(vectorization)と呼ばれ、任意のデータを適切に動作するベクトルに変換します。

40.1 カテゴリ特徴量

一般的な非数値データの1つがカテゴリデータです。例えば、住宅価格に関するデータを調べている場合、「価格」や「部屋数」など数値の特徴量に加え、「地域(neighborhood)」に関する情報も付随しているとします。例えば、次のようなデータで考えてみましょう†1

[†1] 訳注:Queen Anne(クィーンアン)、Fremont(フリーモント)、Wallingford(ウォーリングフォード)は、いずれもシアトル市の地域名。

In [1]: data = [ {'price': 850000, 'rooms': 4, 'neighborhood': ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習

Jake VanderPlas, 菊池 彰
推薦システム実践入門 ―仕事で使える導入ガイド

推薦システム実践入門 ―仕事で使える導入ガイド

風間 正弘, 飯塚 洸二郎, 松村 優也
プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

プロダクトマネージャーのしごと 第2版 ―1日目から使える実践ガイド

Matt LeMay, 永瀬 美穂, 吉羽 龍太郎, 原田 騎郎, 高橋 一貴

Publisher Resources

ISBN: 9784814400638Publisher Website