第1章 什么是文本分析
开发人员从来没有像今天这样方便地进行文本分析,可以很容易地获取数据,并使用功能强大且免费的开源工具来指导分析工作,研究机器学习算法。计算语言学和文本计算正在以前所未有的速度发展。
本章将详细讨论究竟什么是文本分析,学习和理解文本分析的动机。本章介绍的主题如下:
- 什么是文本分析;
- 搜集数据;
- 若输入错误数据,则输出亦为错误数据(Garbage in,garbage out);
- 为什么需要文本分析。
1.1 什么是文本分析
如果要列举出人类每天都在使用的一种媒介,那一定是文本。无论是晨报还是收到的短信,可能都是以文本的形式传递信息。
我们可以从更深远的角度去看文本分析。现今,谷歌等公司处理的文本数据量大到难以想象(谷歌每年1万多亿个查询,Twitter每天16亿个查询,WhatsApp每天30多亿条信息,如图1.1所示),文本的普遍性和纯粹性使得我们有充分的理由来认真研究一番。同时文本数据也具有巨大的商业价值,公司可以利用它来帮助分析客户和理解数据趋势。此外,它还可以用来为用户提供更个性化的体验,或者作为目标市场的信息源。例如,Facebook就重度依赖文本数据,本书将要介绍的算法之一就是由Facebook的AI研究团队开发的。
图1.1 2006-2020年数据增长率(其中2019年和2020年是预测数据)
文本分析是一种从文本中提取有用信息的技术,涉及多种技术流派,本书使用自然语言处理(NLP)、计算语言学(CL)和数值工具来实现文本信息的提取。其中,数值工具指的是机器学习算法或信息检索算法。下面将简要解释这些术语,因为这些名词将在本书中多次出现。 ...
Get 自然语言处理与计算语言学 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.