
395
12
章
pandas
:応用編
これまでの章では、さまざまな種類のデータ改変のワークフローや、
NumPy
や
pandas
、その他のラ
イブラリが持っているさまざまな機能を紹介することに重点を置いてきました。
pandas
には、長い期
間をかけて発展してきた、パワーユーザ向けの深い機能があります。この章では、みなさんがさらに深
い知識を持った
pandas
ユーザになれるよう、これまでの章よりも高度な機能領域をいくつか掘り下げ
ていきます。
12.1
カテゴリ型データ
この節では、
pandas
の
Categorical
型(カテゴリ型)を紹介しましょう。
pandas
を用いたいくつかの
演算において、この型を使うことで、どのように処理速度やメモリ使用量を改善できるかを見ていきま
す。さらに、統計や機械学習の事例にカテゴリ型データを使うためのツールもいくつか紹介します。
12.1.1
開発の背景と動機
しばしば、数種類の値だけのインスタンスが何度も繰り返しテーブルの列に含まれていることがあり
ます。そのようなデータを扱う手段として、これまでの章で、
unique
や
value_counts
といった関数を
見てきました。この
2
つの関数を使うと、配列に含まれるユニークな値を取り出したり、それらの値の
頻度を数えたりできます。
In [10]: import numpy as np; import pandas as pd
In [11]: values = pd.Series(['apple', 'orange', 'apple', ...