第6章 自然语言处理

机器学习或人工智能建立在结构化或非结构化的数据之上。自然语言处理(Natural Language Processing,NLP)是一种专注于处理非结构化数据的算法。本章主要讨论使用自然语言文本格式处理非结构化数据。组织内部总是有大量非结构化文本数据,它们可以是Word文档、PDF、电子邮件正文或Web文档的形式。随着技术的进步,组织开始依赖大量的文本信息。例如,法律公司拥有大量的信息,包括债券、法律协议、法院命令、法律文件等。这些信息资产由特定领域(在本例中指法律相关领域)的文本信息组成。为了利用这些有价值的文本信息,并将信息转换为知识,我们迫切需要智能机器能够在没有任何人工干预的情况下理解原始文本。大数据自然语言处理基于不同来源的大量文本数据来确定内容之间的关系和模式。它有助于确定数据在推荐引擎等用例中使用的趋势。本章将通过一些实例来介绍NLP的基本概念。

现可将自然语言处理方法分为两类:监督自然语言处理方法和无监督自然语言处理方法。监督自然语言处理方法包括监督学习算法,如朴素贝叶斯和随机森林(Random Forest)。这些算法通过训练数据集预测输出,并以此建立模型。这意味着监督学习算法不是自我学习,而是根据提供给它们的输出目标训练和微调模型。无监督学习算法的模型训练不依赖于输出目标,它们从输入记录中提取推论,这些输入记录是对先前迭代的输出记录进行多次迭代的结果,并通过调整权重和参数来优化该结果。循环神经网络(Recurrent Neural Network,RNN)是自然语言处理中常用的无监督学习算法之一。本章将探讨这些技术。

总而言之,本章主要包括以下内容:自然语言处理基础;文本预处理;特征提取;应用自然语言处理技术;实现情感分析。

Get 人工智能技术与大数据 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.