
284
|
第
12
章
构)。不要彻底失去希望;很可能你的脚本会工作很长一段时间!
无论怎样,我们不想给你虚假的希望。你的脚本最终会崩溃。总有一天,你会继续运行
它,然后发现它不再工作了。当发生这些情况时,给自己一个大大的拥抱,为自己冲一杯
茶或咖啡,然后重新开始。
现在你知道了更多关于检验网站上的内容和为报告找出最有用的那部分的方法。你已经有
了相当多的代码,大部分仍然能够工作。你现在处在一个好的调试阶段,并且有很多工具
任你使用,以找到新的
div
或包含所需数据的表。
12.5
几句忠告
当抓取网页时,谨慎是很重要的。你还需要了解所在国家关于网页内容的法律。一般来
说,如何做到谨慎是很显然的。不要把别人的内容当作自己的来用。不要使用已经声明不
允许分享的内容。不要向别人或网站发送垃圾邮件。不要攻击网站或恶意地爬取站点。最
基本地,不要做一个蠢人!如果你不能同母亲或其他亲近的人分享正在做的事情,并且感
觉良好,那就不要做。
有几种方式来明确你在互联网上做的事情。许多抓取库允许你发送
User-Agent
字符串。你
可以将自己的信息或者公司的信息放到这些字符串中,这样抓取者的信息就很清晰。同
时,确保查看站点的
robot.txt
文件(
http://www.robotstxt.org/robotstxt.html
),它会告诉网页
抓取器站点中禁止爬取的内容。
在构建爬虫遍历一个站点之前,看一下站点中你感兴趣的部分是否包含在
robot.txt
的
Disallow
小节中。如果它们存在其中,你需要找到别的方式来
获得数据,或者联系站点的拥有者,看看他们是否会通过其他方式为你提供 ...