9章テーブル型データモデルの詳細

 テーブル型データモデルは、テーブル形式(スプレッドシートやCSVなど)のデータを入力とするモデルだ。このモデルの目的は、テーブルのある列の値を、他の列の値に基づいて予測することだ。本章では、ディープラーニングだけでなく、ランダムフォレストなどの機械学習一般のテクニックを説明する。問題によってはこれらの手法のほうが高い性能が得られるからだ。

 ここでは、データを前処理しクリーニングする方法や訓練した後でモデルの結果を解釈する方法を説明する。その前に、入力データとして数値しか受け付けられないモデルに対して、カテゴリ値を埋め込みを用いて数値に変換して入力する方法を説明しよう。

9.1 カテゴリ埋め込み

 テーブル型データの列は、「年齢」などの数値データである場合もあるが、「性別」などの文字列値を持つ場合もある。数値データは(何らかの前処理をしてもよいが)直接モデルに与えることができる。しかし、文字列値の場合には、数値に変換する必要がある。このような文字列値はカテゴリを表しているので、このような変数をカテゴリ変数(categorical variable)と呼ぶことが多い。数値型のほうは連続変数(continuous variable)と呼ぶ。

一般的な注記
ジャーゴン:連続変数とカテゴリ変数連続変数は、「年齢」などの数値データを表し、直接加算や乗算ができるので、モデルに直接入力できる。カテゴリ変数は、「映画ID」などの離散的な値である。仮に数値として表現されているとしても、加算や乗算は意味をなさない。 ...

Get PyTorchとfastaiではじめるディープラーニング ―エンジニアのためのAIアプリケーション開発 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.