
33
第 3 章
数据整理
3.0
简介
“数据整理(
data wrangling
)”是一个被广泛使用的词,经常用于描述将原始数据转换成
整洁的、组织合理的形式以供使用的过程。对于我们而言,数据整理只是数据预处理中
的一个步骤,但它是一个重要的步骤。
在“整理”数据时,最常用的数据结构是数据帧(
data frame
),它既直观又灵活。数据
帧是呈表格状的,也就是说,就像你在数据表中看到的数据一样,数据帧是用行和列来
表示数据的。下面给出一个用泰坦尼克号乘客的数据创建的数据帧 :
#
加载库
import pandas as pd
#
创建
URL
url = 'https://tinyurl.com/titanic-csv'
#
将数据作为数据帧加载进来
dataframe = pd.read_csv(url)
#
查看前
5
行数据
dataframe.head(5)
Name PClass Age Sex Survived SexCode
0 Allen, Miss Elisabeth Walton 1st 29.00 female 1 1
1 Allison, Miss Helen Loraine 1st 2.00 female 0 1
2 Allison, Mr Hudson Joshua Creighton 1st 30.00 male 0 0
3 Allison, Mrs Hudson JC(Bessie waldo Daniels) 1st 25.00 female 0 1
4 Allison, ...