
处理
Excel
文件
|
71
data = {}
for
i
in
xrange(14, sheet.nrows):
# 从第14行开始,因为这是国家数据的起点。
➋
row = sheet.row_values(i)
country = row[1]
data[country] = {
'child_labor': {
'total': [row[4], row[5]],
'male': [row[6], row[7]],
'female': [row[8], row[9]],
},
'child_marriage': {
'married_by_15': [row[10], row[11]],
'married_by_18': [row[12], row[13]],
}
}
if
country == 'Zimbabwe':
break
import
pprint
pprint.pprint(data)
➌
➊
多行注释,大致说明脚本的用途。
➋
单行注释,说明我们为什么从第
14
行开始,而不是从前面开始。
➌
从简单的数据解析过渡到数据分析工作时,我们可以也应该删除这两行。
现在我们的输出应该和上一章的数据差不多。在下一章里,我们进一步将相同的数据从
PDF
文件中解析出来。
4.4
小结
Excel
格式是介于机器可读与人工可读之间的奇怪格式,在一定程度上是机器可读的。
Excel
文件本来不是用程序来读取的,但可以被程序解析。
为了处理这种非标准格式,我们需要安装外部库。寻找外部库有两种方法 ...