
12.1
カテゴリ型データ
397
Out[19]:
0 apple
1 orange
0 apple
0 apple
0 apple
1 orange
0 apple
0 apple
dtype: object
このような整数表現を、カテゴリ表現やディクショナリ形式にエンコードされた表現と呼びます。ま
た、もともとのユニークな値を並べた配列を、データのカテゴリやディクショナリ、レベルと呼びます。
この本ではカテゴリという用語を使っていきます。各カテゴリを参照している整数値は、カテゴリコー
ドもしくは単にコードと呼びます。
カテゴリ表現にすることで、分析を行う場合は処理速度をかなり改善できます。さらに、コードを変
更せずにカテゴリ情報だけを変更することも可能になります。比較的低コストで行えるカテゴリ情報の
変更としては、例えば次のようなものがあります。
●
カテゴリ名を変
更すること
●
既にあるカテゴリの順序や位置を変えずに、新たなカテゴリを追加すること
12.1.2
pandas
におけるカテゴリ型
pandas
には、データの保持に整数ベースのカテゴリ表現(エンコーディングとも言います)を用いる、
Categorical
という特殊な型があります。先ほどのシリーズの例を引き続き用いて考えていきましょう。
In [20]: fruits = ['apple', 'orange', 'apple', 'apple'] * 2
In [21]: N = len(fruits)
In [22]: df = pd.DataFrame({'fruit': ...