Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
16
2
种情况,意味着所有的工作和输入的代码都丢失了。这时我们往往应该采用混合模式。
最前面的开发工作在
REPL
里完成,随着代码逐渐成熟,将代码移到编译库里。可以
spark-shell
中引用已编译好的
JAR
,只要给
spark-shell
设置
--jars
命令行参数
即可。这样的话,如果使用得当,就不用频繁重新编译
JAR
,同时
REPL
可以支持快
速代码迭代和逐步成熟方式。
如何引用外部的
Java
Scala
类库呢?要编译引用了外部类库的代码,需要在工程的
Maven
配置文件(
pom.xml
)中指定所需的类库。要运行依赖外部类库的代码,需要在
Spark
进程中通过
classpath
将所需类库的
JAR
文件包含进来。为此,一种好的做法
是使用
Maven
来打包
JAR
,使生成的
JAR
包含应用程序的所有依赖文件。接着在启动
shell
时通过
--jars
属性引用该
JAR
。这种方法的优点是依赖只需要在
Maven
pom.
xml
中指定一次即可。如何进行设置,请参考本书
GitHub
资料库的
simplesparkproject/
目录。
如果想使用第三方
Maven
仓库的某个
JAR
,可以通过
--package
命令行参数告知
spark-shell
这个
JAR
Maven
坐标,随后
spark-shell
就会加载这个
JAR
。举个
例子,为加载
Scala 2.11
版本的
Wisp Visualization
库,你需要将
--packages "com.
quantifind:wisp_2.11:0.0.4"
这个参数传递给
spark-shell ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525