前       言

教育不是学习已有的知识,而是训练思想。

——爱因斯坦

数据是我们这个时代的新载体,机器学习与受生物学启发的认知系统结合在一起,不仅成为第四次工业革命的核心基础,而且还促进了第四次工业革命的诞生。本书的完成应该归功于我们的父母,他们通过异常的艰辛和牺牲,让我们接受教育,并教会我们始终保持友善。

本书由4个具有不同背景的作者编写而成,他们在多个行业和学术领域都拥有丰富的经验。这本书不仅是团队友谊的见证,更是一本讲述Spark和机器学习的图书。我们希望将大家的思想汇总起来,编写成一本书,不仅将Spark机器学习代码和现实世界的数据集结合在一起,而且还提供与之相关的解释和参考资料,便于读者深入理解并开展进一步的研究。本书反映了团队在开始使用Apache Spark时所希望拥有的知识和技能。

我对机器学习和人工智能的兴趣始于20世纪80年代中期,当时有机会阅读了在1986年2月出版的《人工智能》(国际期刊,第28卷,第1期)上列出的两个重要工件。尽管对于我们这一代的工程师和科学家来说,这是一段漫长的旅程。但是弹性分布式计算、云计算、GPU、认知计算、最优化和机器学习的技术进步实现了科学家们数十年的梦想。所有这些进步的相关技术对于当今的机器学习爱好者和数据科学家都是可以获取和学习的。

我们生活在历史上的一个特殊时期,一个多种技术和社会学趋势融合在一起的时期。云计算的灵活性以及对内嵌的机器学习和深度学习网络的结合,将为创建和占领新市场提供全新的机会。Apache Spark是一种通用编程框架,也是一种近实时弹性分布式计算和数据虚拟化技术,它为众多的公司提供了机会,使人们可以大规模使用机器学习技术,而无须在专用数据中心或硬件上进行大量投资。

本书提供了Apache Spark机器学习API的全面解决方案,书中所选择的Spark组件示例不仅可以提供基础知识,还可以帮助掌握机器学习和Apache ...

Get Spark机器学习实战 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.