
94
|
第
5
章
totals.append(clean(line))
country_line = turn_on_off(line, country_line,
'and areas', previous_line)
total_line = turn_on_off(line, total_line,
'total', previous_line)
previous_line = line
import
pprint
data = dict(zip(countries, totals))
pprint.pprint(data)
有好几种方法可以解决我们面临的问题。在接下来的几节中,我们会讲到其中几种解决
方法。
5.4.1
练习
:
使用表格提取
,
换用另一个库
前面我们对
PDF
转换成文本遇到的困难头痛不已,下面我们寻找其他方法来实现表格提
取,不用
pdfminer
。我们找到了
pdftables
库(
http://pdftables.readthedocs.org/
),这个库已
经不再更新了(原作者的最后一次更新时间是两年多以前)。
我们需要安装必要的库(
http://pdftables.readthedocs.io/en/latest/#installation
),只需运行
pip
install pdftables
和
pip install requests
即可完成安装。原作者并没有及时更新所有的
文档,所以文档和
README.md
中的某些例子明显是错的。尽管如此,我们还是找到了一
个“多合一” ...