Skip to Content
Python语言及其应用(第2版)
book

Python语言及其应用(第2版)

by Bill Lubanovic
March 2022
Intermediate to advanced content levelIntermediate to advanced
522 pages
13h 52m
Chinese
Posts & Telecom Press
Content preview from Python语言及其应用(第2版)
340
18
18.7.1 Scrapy
如果需要工业强度的爬虫和抓取器组合,那么
Scrapy
值得一试。
$
pip install scrapy
该命令会安装模块和独立的命令行程序
scrapy
Scrapy
是一个框架,而不仅仅是像
BeautifulSoup
这样的模块。它做的事情更多,设置起
来也更复杂。要想进一步学习
Scrapy
,可以阅读
Scrapy at a Glance
及其教程。
18.7.2
BeautifulSoup
如果已经有了网站的
HTML
数据,只想从中提取数据,那么
BeautifulSoup
是一个不错的
选择。
HTML
解析远比听起来要难,因为很多公共页面的
HTML
在技术上是不合法的:
闭合的标签、不正确的嵌套结构以及其他各种问题。如果尝试使用正则表达式(参见
12.2
节)自己编写
HTML
解析器,则很快就会碰到这些麻烦事。
输入下列命令安装
BeautifulSoup
(别忘记结尾的
4
,否则
pip
会试图安装旧版本,有可能
会失败):
$
pip install beautifulsoup4
现在,使用
BeautifulSoup
来获取
Web
页面的所有链接。
HTML
a
元素表示链接,其特
href
表示该链接的目标。例
18-13
定义了函数
get_links()
来完成这项工作,主程序指
定了一个或多个
URL
作为命令行参数。
18-13
links.py
def get_links(url):
import requests
from bs4 import BeautifulSoup as soup ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Python编程入门与实战

Python编程入门与实战

Posts & Telecom Press, Fabrizio Romano
Python实用技能学习指南

Python实用技能学习指南

Posts & Telecom Press, Robert Smallshire, Austin Bingham
Python技术基础视频教程

Python技术基础视频教程

保罗·J·戴特尔
Python面向对象编程指南

Python面向对象编程指南

Posts & Telecom Press, Steven F. Lott

Publisher Resources

ISBN: 9787115586223