第3章 自然语言处理

学习目标

阅读完本章之后,你将能够:

  • 区分自然语言处理的不同领域;
  • 分析Python中基本的自然语言处理库;
  • 预测一组文本的主题;
  • 开发一个简单的语言模型。

本章介绍自然语言处理的基础知识、不同领域,以及Python中的自然语言处理库。

自然语言处理(Natural Language Processing,NLP)是AI的一个领域,旨在让计算机理解和使用人类语言,从而执行有用的任务。自然语言处理又划分为两个部分:自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)。

近年来,AI改变了机器与人类的互动方式。AI可以帮助人类解决各种复杂问题,例如,根据个人喜好向用户推荐电影(推荐系统)。得益于高性能GPU和大量的可用数据,人们现在可以创造出具有类似人类的学习和行为能力的智能系统。

有许多库旨在帮助人们创建这种系统。本章会介绍一些著名的Python库,用来从原始文本中提取和清洗信息。完全理解并解读语言这件事本身是一项困难的任务。例如,“C罗进了3个球”这句话对机器来说是很难理解的,因为机器既不知道C罗是谁,也不知道进球的数量意味着什么。

NLP中最流行的主题之一是问答系统(Question Answering System,简称QA),而这种系统又包含了信息检索(Information Retrieval,IR)。这种系统通过在数据库中查询知识或信息来进行回答,也能够从自然语言文档库中提取回答。搜索引擎都是这样工作的。

如今,NLP在业界越来越流行,最新的NLP趋势包括在线广告匹配、情感分析、机器翻译,以及聊天机器人。

NLP面对的下一个挑战是会话代理,俗称“聊天机器人”。聊天机器人可以进行真正的对话,很多公司利用这种技术来分析客户的行为和观点,以便获取产品反馈或者发起广告宣传活动。NLP的一个很好的例子就是虚拟助手,并且它们已经被引入市场中了。著名的虚拟助手包括Siri、亚马逊的Alexa,以及Google ...

Get Python计算机视觉和自然语言处理 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.