第14章 网页爬虫
R是统计计算和数据分析的利器。给定一个数据集,利用前几章介绍到的 R 中灵活的数据结构或高性能计算,我们可以很方便地进行数据转换、建模和数值分析。
一般来说,商业数据库会将数据以表格的形式很好地组织起来,便于使用。然而,情况并非总是如此合意,输入数据集也并非总是立即可得。有时,我们需要自己收集数据。对于很多研究领域而言,网页内容是一个重要的数据源。为了从互联网上收集(抓取或收取)数据,我们需要适当的技术和工具。本章将会介绍网络爬虫的基本知识和工具,包括:
- 查阅网页内容
- 使用CSS和XPath选择器
- 分析HTML代码并提取数据
14.1 查阅网页内容
信息展示在网页上。图14-1展示了一个简单的网页(网址为data/simple-page.html),包括标题和一个段落:
图14-1
所有现代浏览器都支持这样的网页。用任意的文本编辑器打开 data/simple-page.html,就会看到网页背后的代码,如下所示:
<!DOCTYPE html>
<html>
<head>
<title>Simple page</title>
</head>
<body>
<h1>Heading 1</h1>
<p>This is a paragraph.</p>
</body>
</html>
上述代码是 HTML(HyperTextMarkupLanguage)的一个例子。HTML 是互联网中使用最广泛的语言。与其他任何一种语言都不同的是:HTML 描述了网页的布局排版和内容,浏览器则根据 ...
Get R编程学习指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.