第4章 识别异常数据

在本章中,我们将深入研究深度神经网络和深度学习模型。这一章将关注自动编码器,它可以用来学习数据集的特征。本章的第一部分将介绍无监督学习,这种方法中没有要预测的具体结果。接下来4.2节在机器学习特别是深度神经网络背景下,提供了自动编码器模型的一个概念综述。本章的主要核心将介绍如何建立并运用自动编码器模型识别异常的数据。这种非典型的数据可能仅仅是坏数据或者离群数据,但这种技术也能用于欺诈检测。例如,当一张个人信用卡的消费模型不同于通常的行为时,就可能是有些地方不对劲儿,要亮起红灯了。最后,本章以如何微调模型的一些探索来结束,包括使用第3章所讨论的不同正则化策略。除了深度学习模型自身的用处,本章还将提供使用和训练它们的重要组件。

这一章将会包括下列主题。

  • 什么是无监督学习
  • 自动编码器如何工作
  • 在R中训练自动编码器
  • 用例——建立并训练自动编码器模型
  • 微调自动编码器

到目前为止,我们已经关注过大体上可以归入有监督学习类型的模型和技术。有监督学习是有监督的,意思是这种任务是机器要取学习一组变量或特征与一个或多个结果之间的关系,通常只有单个结果。例如,一家公司也许想要预测某人是否有可能成为它的客户,在这种情形下,一个人是否会成为客户的结果被编码为是/否。在本章中,我们将深入研究无监督学习的方法。与使用了一个结果变量或者标记数据的有监督学习不同,无监督学习只使用输入的特征来学习。一个常见的无监督学习的例子是聚类分析,机器去学习数据中隐藏的或者潜在的聚类,目标是去最小化评价的准则(例如一个聚类内部的最小的方差)。

另一种关于无监督学习的方法是,它的目标是去预测输入值。这种方法的一个例子如图4-1所示,我们刚开始看这是有点反直觉的,因为去学习一个目标仅仅是重复产生输送给它的输入值的复杂模型,这看起来相对而言没有什么用。然而,这里有一些有用的特征。一种常用的无监督学习是降维。降维的目标是对一组 ...

Get R深度学习权威指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.