第1章 Scala和Spark的机器学习实战
在本章,我们将涵盖以下内容:
- 下载和安装JDK;
- 下载和安装IntelliJ;
- 下载和安装Spark;
- 使用IntelliJ配置Spark;
- 运行Spark机器学习示例代码;
- 获取机器学习实战所需的数据源;
- 使用IntelliJ IDE运行第一个Apache Spark 2.0程序;
- 在Spark程序中添加图表。
1.1 引言
随着集群计算的快速发展和大数据的兴起,机器学习领域已经被推到了计算的最前沿。长久以来,交互平台对大规模的数据科学来说一直是个遥不可及的梦,而现在已经变为一个现实。
有3个技术领域促进和加速了交互数据科学的发展。
- Apache Spark:一个数据科学的统一技术平台,结合快速计算引擎和容错数据结构,具备良好的设计结构和统一对外服务的特性。
- 机器学习:人工智能的一个领域,使机器能够模仿人类大脑,解决最初仅限于人类大脑能解决的一些问题。
- Scala:一种基于Java虚拟机的现代语言,尽管建立在传统语言之上,但结合了函数式和面向对象特征,而且没有其他语言的冗余特征。
首先,需要配置包含以下几个组件的开发环境:
- Spark;
- IntelliJ community edition IDE;
- Scala。
本章会提供若干攻略详细讲解安装和配置IntelliJ IDE、Scala插件和Spark。在成功配置开发环境之后,接着会运行一个 Spark 机器学习示例代码,测试开发配置是否正确。
1.1.1 Apache Spark
Apache Spark正在逐步成为大数据分析领域的事实平台和交流语言,并作为Hadoop范式的补充。Spark 让数据科学家能用最有效、适合的工作流进行工作,Spark 不需要使用MapReduce(MR)或将中间结果重复写入磁盘,而是使用完全分布式的方式来处理负载。 ...
Get Spark机器学习实战 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.