
3.13
根据值对行分组
|
51
Name PClass Age Sex Survived SexCode
1307 Zabour, Miss Tamini 3rd NaN female 0 1
1312 Zimmerman, Leo 3rd 29.0 male 0 0
还有一个相关的方法是
duplicated
,它返回一个布尔序列来表示某一行是否为重复的行。
如果你不想简单地将重复行删除,这个方法会是一个不错的选择。
3.13
根据值对行分组
问题描述
要根据一些共有的值(
shared value
)对行分组。
解决方案
groupby
是
pandas
中最强大的功能之一 :
#
加载库
import pandas as pd
#
创建
URL
url = 'https://tinyurl.com/titanic-csv'
#
加载数据
dataframe = pd.read_csv(url)
#
根据
Sex
列的值来对行分组,并计算每一组的平均值
dataframe.groupby('Sex').mean()
Sex Age Survived SexCode
female 29.396424 0.666667 1.0
male 31.014338 0.166863 0.0
讨论
groupby
才是数据整理工作的真正起点。经常会遇到这种情况 :数据帧的每一行代表的
是一个人或者一个事件,而我们需要根据某些标准对这些行分组并计算某个统计量。例
如,假设有一个数据帧,其中每一行都是一家国际连锁餐厅分店的一条销售记录。如果 ...