
14.3
アメリカの赤ちゃんに名付けられた名前リスト(
1880-2010
)
459
1690779 Zymaire M 5 2010 0.000003
1690780 Zyonne M 5 2010 0.000003
1690781 Zyquarius M 5 2010 0.000003
1690782 Zyran M 5 2010 0.000003
1690783 Zzyzx M 5 2010 0.000003
[1690784 rows x 5 columns]
今回のようにグループ化した際には検算の実施が有効な場合が多くあります。この例では、それぞ
れのグループ内を足し合わせたとき、果たしてきちんと
1
になっているのか、という点です。
In [106]: names.groupby(['year', 'sex']).prop.sum()
Out[106]:
year sex
1880 F 1.0
M 1.0
1881 F 1.0
M 1.0
1882 F 1.0
...
2008 M 1.0
2009 F 1.0
M 1.0
2010 F 1.0
M 1.0
Name: prop, Length: 262, dtype: float64
無事検証できたので次の分析に移りたいと思います。年代・性別ごとの、上位
1,000
件の名前がどの
ようなものであるかを見てみましょう。データフレームオブジェクトの
names
にグループ操作を適用し
ます。
def get_top1000(group):
return grou
p.sort_values(by='births', ...