Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
Spark
内存计算
61
4.3
 编写
Spark
应用程序
使用
Python
编写
Spark
应用程序与在交互式控制台中使用
Spark
很像,因为
API
是相
同的。但是你不需要在交互式
shell
中输入命令,而是需要创建一个完整的、可执行的
驱动程序并将其提交到集群。这涉及一些在 pyspark 中自动处理的内务任务,包括获取
SparkContext 的访问,这是由
shell
自动加载的。
因此,许多
Spark
程序都是简单的
Python
脚本。它包含一些数据(共享变量),定义用于
转换
RDD
的闭包,并描述
RDD
转换和聚合的分步执行计划。使用
Python
编写
Spark
应用
程序的基本模板如下所示:
## Spark应用程序,使用spark-submit执行
## 导入
from pyspark import SparkConf, SparkContext
## 共享变量和数据
APP_NAME = "My Spark Application"
## 闭包函数
## 主要功能
def main(sc):
"""
这里描述RDD转换和动作
"""
pass
if __name__ == "__main__":
# 配置Spark
conf = SparkConf().setAppName(APP_NAME)
conf = conf.setMaster("local[*]")
sc = SparkContext(conf=conf)
# 执行主要功能
main(sc)
此模板展示了 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648