Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
Spark
内存计算
53
磁盘写操作。它还利用了
DAG
执行引擎优化计算,特别是迭代计算,这对于优化算法和
机器学习等数据理论任务来说至关重要。在速度方面的优势使得
Spark
能以交互方式进行
访问(就像访问
Python
解释器一样),使用户成为计算任务的一部分,并支持以前不可能
实现的大数据集探索,让数据科学家能更轻松地使用集群。
因为有向无环图通常用于描述数据流中的步骤,所以在讨论大数据处理时经
常会使用
DAG
这一术语。
DAG
有向,是因为一个或多个步骤接着前一个步
骤;无环,是因为单个步骤不重复。当数据流被描述为
DAG
时,它消除了
大代价的同步,并且使得并行应用程序更容易构建。
本章将介绍
Spark
RDD
,也是讲解使用
Hadoop
进行分析的基础知识的最后一章。因
Spark
实现了数据科学家熟悉的许多应用程序(例如
DataFrame
、交互式
notebook
SQL
),所以建议
Hadoop
新手用户首选
Spark
与集群交互,至少初期要这样做。为此,我
们将描述
RDD
,通过
pyspark
探索如何在命令行中使用
Spark
,然后演示如何使用
Python
编写
Spark
应用程序,并将它们作为
Spark
作业提交到集群中。
4.1
 
Spark
基础
Apache Spark
是一个集群计算平台,为类似于
MapReduce
模型的分布式编程提供了一个
API
,但被设计用于快速的交互式查询和迭代算法。
1
它主要通过在集群节点的内存中缓存
计算所需的数据来实现高速运行。在内存中进行集群计算使
Spark
可以运行迭代算法,因
为程序可以为数据创建检查点并引用回它,避免从磁盘重新加载。此外 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648