第2章 使用Spark开发应用
在本章中,我们将介绍以下内容。
- 探索Spark shell。
- 在Eclipse中使用Maven开发Spark应用。
- 在Eclipse中使用SBT开发Spark应用。
- 在Intellij IDEA中使用Maven开发Spark应用。
- 在Intellij IDEA中使用SBT开发Spark应用。
2.1 简介
要创建可用于生产实际的Spark作业或应用,使用各种集成开发环境(Integrated Development Environments,IDEs)和构建工具非常有用。本章将会介绍各种IDEs和构建工具。
2.2 探索Spark shell
Spark捆绑了一个REPL shell,REPL shell是由Scala shell封装的。虽然Spark shell看起来只是个做简单事情的命令行,但是实际上很多复杂查询都可以通过它来执行。本章探讨开发Spark应用的不同开发环境。
具体步骤
如果使用Spark shell的话,Hadoop MapReduce的字数统计就会变得很简单。本篇教程将会创建一个单行的文本文件,上传到Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)中,并使用Spark来统计字数。让我们看看怎么做。
1.使用以下命令创建一个名叫words
的文件夹。
$ mkdir words
2.进入words
目录。
$ cd words
3.创建一个名叫sh.txt
的文本文件并键入内容“to be or not to be
”。
$ echo "to be or not to be"> sh.txt
4.打开Spark shell。
$ spark-shell ...
Get Spark Cookbook (中文版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.