
7.2
データの変形
217
0 one 1 0
1 two 1 1
duplicated
メソッドも
drop_duplicates
メソッドも、デフォルトでは、重複が見つかった場合に最初
の値を残します(最初の値以外を重複と判定します)。
keep='last'
と指定すると、最後の値を残すよう
処理を変更できます
*
1
。
In [51]: data.drop_duplicates(['k1', 'k2'], keep='last')
Out[51]:
k1 k2 v1
0 one 1 0
1 two 1 1
2 one 2 2
3 two 3 3
4 one 3 4
6 two 4 6
7.2.2
関数やマッピングを用いたデータの変換
さまざまなデータセットを扱っていると、配列やシリーズ、データフレーム内の列の値に基づいて変
換を行いたいことが
あります。例えば、さまざまな種類の肉に関する情報をまとめた、次のような仮想
のデータを考えてみましょう。
In [52]: data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon',
....: 'Pastrami', 'corned beef', 'Bacon',
....: 'pastrami', 'honey ham', 'nova lox'],
....: 'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
In [53]: data
Out[53]:
food ounces