
处理
PDF
文件,以及用
Python
解决问题
|
75
图 5-1:PyPI 网站上的 PDF 包
浏览这些
Python
包,了解一下每个库的详细信息,但分辨不出哪一个库是解析
PDF
的最
佳选择。如果你尝试更多的搜索,比如“
parse pdf
”(解析
pdf
),会出现更多的库供你选
择,但还是没有明显的最佳选择(搜索结果见
https://pypi.python.org/pypi?:action=search&t
e
rm=parse+pdf&submit=search
)。所以我们用搜索引擎查看一下大家都在用什么库来解析
PDF
。
在搜索库或者答案时,注意观察你找到资料的发布日期。帖子或问题的年代
越久远,它过时且不再适用的可能性就越大。先试着将搜索范围限定在过去
的两年内,然后仅在需要时再扩大搜索的时间范围。
在阅读了许多教程、文档、博客文章和几篇有用的文章(例如这一篇:
http://www.binpress.
com/tutorial/manipulating-pdfs-with-python/167
)之后,我们决定使用
slate
库(
https://pypi.
python.org/pypi/slate
)。
slate
能够满足我们的需求,但并非总是如此。放弃并从头开始也是可以的。
如果有很多库可供选择的话,选择你认为最合适的那一个,即使有人告诉你
它不是“最好的”工具。究竟哪一个工具最好,大家见仁见智。在你学习编
程的过程中,“最好的”工具就是你凭直觉选择的那一个。
5.2.1
利用
slate
库打开并读取
PDF
我们决定用 ...