Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
Spark
内存计算
59
4.2
 基于
PySpark
的交互性
Spark
Spark
处理起可以放入集群内存的数据集非常快,足以支持数据科学家在实现了
Python
REPL
read-evaluate-print loop
,读取、评估、打印循环)的交互式
shell
中交互并探索大
数据。
Spark
中的交互式
shell
pyspark。这种交互方式类似于在
Python
解释器中与本
Python
代码交互、在命令行中编写命令并接收 stdout 的输出(还有
Scala
R
的交互
shell
)。这种类型的交互还支持交互式
notebook
,在
Spark
环境中设置
iPython
Jupyter
notebook
也非常容易。
本节将开始研究如何在 pyspark 中使用
RDD
,因为这是启用
Spark
最简单的方法。为了运
行交互式
shell
,你需要定位 pyspark 命令,该命令位于
Spark
库的
bin
目录。和 $HADOOP_
HOME(一个指向系统上
Hadoop
库的位置的环境变量)类似,你也应该配置一个 $SPARK_
HOME
Spark
无须配置即可运行,因此只需下载适用于系统的
Spark
就足够了。将 $SPARK_
HOME 替换为下载路径(或设置你的环境)就可以运行交互式
shell
,如下所示:
hostname $
$SPARK_HOME/bin/pyspark
[... snip ...]
>>>
PySpark
使用本地
Spark
配置自动创建了一个 SparkContext。它通过 sc 变量将自己暴露给 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648