
13.2
Patsy
を使ったモデルの記述
423
カテゴリ型のデータにおいては、特殊な種類の変形があるので、次の節で説明します。
13.2.2
カテゴリ型データと
Patsy
数値ではないデータも、モデルの計画行列においてさまざまな方法で変換することができます。し
かし、このトピックに関する詳細はこの本の範囲を超えます。統計学のコースなどで学習した方がよい
でしょう。
Patsy
の
formula
式で数値ではないデータを使うと、デフォルトではダミー変数に変換されます。切
片(
Intercept
)ありのモデルにした場合、多重共線性の問題を回避するため、カテゴリ型の変数のレベ
ルのうち
1
つが取り除かれます
*
1
。
In [51]: data = pd.DataFrame({
....: 'key1': ['a', 'a', 'b', 'b', 'a', 'b', 'a', 'b'],
....: '
key2': [0, 1, 0, 1, 0, 1, 0, 0],
....: 'v1': [1, 2, 3, 4, 5, 6, 7, 8],
....: 'v2': [-1, 0, 2.5, -0.5, 4.0, -1.2, 0.2, -1.7]
....: })
In [52]: y, X = patsy.dmatrices('v2 ~ key1', data)
In [53]: X
Out[53]:
DesignMatrix with shape (8, 2)
Intercept key1[T.b]
1 0
1 0 ...