May 2024
Intermediate to advanced
234 pages
3h 58m
Chinese
在本章中,我们用前几章介绍的算法和方法,开发一套能够判断影评情感倾向的情感分析系统。我们还将用Scrapy库,通过搜索引擎API(Bing搜索引擎)从不同的网站采集影评数据。我们用newspaper库或预先定义好的HTML页面抽取规则,从影评数据抽取影评内容和电影名称。我们用朴素贝叶斯分类器,以包含分类信息最多(使用X2检测)的词语作为特征,得到每条影评的情感倾向,第4章讲过该方法。我们用第4章讲过的PageRank算法,计算与每个电影查询词相关的网页次序。本章将讨论影评情感分析应用的代码,包括Django的model和view,我们用Scrapy库的scraper从网页采集影评数据。我们首先给出Web应用的样例,解释我们使用的搜索引擎API和将其整合到应用的方法。然后,讲解影评的采集方法:将Scrapy库整合到Django、编写存储数据的model和管理应用的主要命令。本章讨论的这些代码均已放到作者的GitHub仓库chapter_8文件夹,地址为https://github.com/ ai2010/machine_learning_for_the_web/tree/master/chapter_8。
首页展示效果见图8.1:

图8.1
如果用户想知道影评的情感倾向和相关性,他们输入电影的名称进行查询即可。例如,图8.2显示的是电影Batman vs Superman Dawn of Justice[1]影评情感分析结果: ...
Read now
Unlock full access