
222
7
章 データのクリーニングと前処理
渡してください。
In [73]: data.rename(index={'OHIO': 'INDIANA'}, inplace=True)
In [74]: data
Out[74]:
one two three four
INDIANA 0 1 2 3
COLO 4 5 6 7
NEW 8 9 10 11
7.2.5
離散化とビニング
連続したデータを離散化したり、分析のために「ビン」に分割したいときがあります。ここでは、調
査対象の人々に関するデータを持っていて、その人々を年齢に応じて離散的な箱に分類することで、
グループ化したいとします。
In [75]: ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
このデータを、
18
歳から
25
歳、
26
歳から
35
歳、
36
歳から
60
歳、
61
歳以上の
4
つのビンに分割して
みましょう。そのためには、
pandas
の
cut
関数を使用します。
In [76]: bins = [18, 25, 35, 60, 100]
In [77]: cats = pd.cut(ages, bins)
In [78]: cats
Out[78]:
[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35,
60], (35, 60], (25, 35]]
Length: 12
Categories ...