第4章 Web挖掘技术
Web数据挖掘技术适用于探索因特网上的数据,从中抽取相关信息。搜索网上内容,其过程很复杂,要用到多种算法,本章重点讲解这些算法。搜索引擎,拿到查询词(search query)之后,分析每个网页的数据,找到与查询词相关的网页。网页中的数据通常分为网页内容和链接到其他网页的超链接。一般而言,搜索引擎由以下部件组成:
- 采集网页的Web爬虫或蜘蛛;
- 抽取内容和预处理网页的解析器;
- 将网页组织为数据结构的索引器;
- 信息检索系统:根据文档与查询词的相关程度,找出最重要的文档;
- 以某种有意义的方式,调整各网页顺序的排序算法。
这些部件的核心技术为Web结构挖掘和Web内容挖掘。
搜索引擎的Web爬虫、索引器和排序机制,处理的是Web的结构(超链接文本形成的网络)。搜索引擎的其余部分(解析器和检索系统)为Web内容分析方法,因为要解析网页,检索其中的文本信息。
更一步来讲,对于收集到的网页,我们可以利用自然语言处理技术深入分析其中的内容,比如使用潜在狄利克雷分布分析(Latent Dirichlet Allocation,LDA)、意见挖掘或情感分析工具。这些重要技术适用于从Web内容抽取其发表人的主观看法。因此在很多市场营销、咨询领域的商业应用中,都能看到它们的身影。本章最后将讨论这些情感分析技术。现在,我们首先来讨论Web结构挖掘。
4.1 Web结构挖掘
这一类Web挖掘技术,有两个主要任务,一是如何发现网页之间的关系,二是如何利用链接结构找出相关网页。任务一,我们通常用爬虫爬取链接,并将爬取到的链接和网页存储到索引器。任务二,则要计算网页的重要性,并按其排序。
4.1.1 Web爬虫
爬虫从一组URL(种子网页)开始爬取,从这些网页抽取链接后,接着去爬取它们。然后,再从新爬取到的网页抽取新链接。重复这一过程,直到满足预先设定的标准为止。未爬取的URL存储在 ...
Get Web机器学习 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.