
14 1 章 データサイエンスとは
1.3.2 定量データとカテゴリデータ
定量データは、身長や体重のように数値で構成されている。この種のデータは、代数式や数学モデルに直
接組み込むことができ、グラフに表示できる。
それに対し、カテゴリデータは、性別、髪の色、職業などのように、調査対象の性質を説明するようなラ
ベルを持つデータから構成されている。このような記述情報は、数値データと同じくらい正確で意味のある
ものになり得るが、数値データと同じ技法で分析することはできない。
カテ
ゴリデータは、通常、数値を使って符号化できる。例えば、性別は male = 0(男性)、female = 1
(女性)のように表せる。しかし、1 つの特徴が 3 つ以上の値を持ち、特にそれらの間に順序がなければ、話
は少し難しくなる。例えば、髪の色は、greyhair = 0(白髪)、redhair = 1(赤髪)、blondhair = 2(金髪)
のように色ごとに異なる値を割り当てることができる。しかし、単純な同一性検査以外の目的では、本当は
これらの値を数値として扱うことはできない。髪の色の最大値や最小値に意味があるだろうか。私の髪の色
からあなたの髪の色を引いた値をどのように解釈したらよいのだろうか。
本書で扱う操作は、大半が数値データを中心としたものである。しかし、カテゴリ的な特徴とそれらの有
効な操作方法にも注意を向けなければならない。分類やクラスタリングは、数値データからカテゴリラベル
を生成することだと考えられるが、本書の中心的なテーマとしてたびたび取り上げる。 ...