第4章 大数据神经网络

第3章为智能系统的构建奠定了基础。该章将机器学习算法分为监督学习算法和无监督学习算法两大类,探讨了Spark编程模型如何通过简单的编程接口方便地实现它们,并对Spark提供的机器学习库进行了简要概述,还列举了一个使用Spark ML代码的例子来介绍回归分析的基本原理。该章展示了如何使用K均值算法对数据进行聚类,并在降维这一话题上进行了深入的探讨。(降维主要是帮助我们用更少的维度无损地表示相同的信息。)通过对主成分分析、基于内容的推荐和协同过滤技术的理解,我们已经为推荐引擎的实现奠定了基础,同时还了解了矩阵代数的一些基本知识。

本章将探讨神经网络,以及它们是如何随着分布式计算框架的计算能力增强而发展的。神经网络从人脑中获得灵感,并帮助人们解决一些传统数学模型无法解决的复杂问题。本章主要包括以下内容:神经网络和人工神经网络的基础,感知器和线性模型,非线性模型,前馈神经网络,梯度下降、反向传播和过拟合,以及循环神经网络。

我们将用一些容易理解的场景并结合Spark ML的相应代码示例来解释这些概念。

第3章介绍的基本算法和数学模型在解决一些结构化的简单问题时非常奏效。相对于人脑易于做到的事,这些问题要简单得多。例如,当婴儿开始通过各种感觉(视觉、听觉、触觉等)识别物体时,他会基于人脑中的一些基本组成部分来学习这些物体。在所有生物中都有类似的机制,只是进化周期不同,其复杂程度也不同。

一项对各种动物和人脑的神经学研究表明,大脑的基本构造单元是神经元。这些生物神经元相互连接,能够同时向数千个相连的神经元发送信号。据观察,复杂物种(如人类)脑中包含的神经元比简单物种更多。例如,人们相信人脑中有1000亿个相互连接的神经元。研究人员发现,不同物种的智力水平与其神经元之间的互连数量、层级存在直接关系。这促进了 ...

Get 人工智能技术与大数据 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.