Skip to Main Content
Hadoop数据分析
book

Hadoop数据分析

by Benjamin Bengfort, Jenny Kim
April 2018
Intermediate to advanced content levelIntermediate to advanced
229 pages
6h 19m
Chinese
Posts & Telecom Press
Content preview from Hadoop数据分析
198
术语表
数据并行
一种在多个处理器之间进行计算的方法,其中数据分布在不同的节点上,各个节点同时
对数据应用相同或相似的计算。
数据产品
自适应的、广泛适用的经济引擎,从数据中获取价值,通过影响人类行为或通过对新数
据进行推论或预测,产生更多数据。
数据科学
创建和开发数据产品所涉及的工作流和过程。
数据科学流水线
描述数据科学分析过程的教学模式。流水线规定了一个线性过程,数据在其间被采集、
整理、计算、建模并最终得以可视化。
数据科学家
他们是拥有强大统计学背景的程序员,是具备高超程序设计能力的分析师,是非常了解
数据如何影响可视化的设计师,或是在构建数据产品方面富有创新思想的领域专家。在
任何情况下,数据科学家都是全能的通才,能够轻松学习新的方法来处理数据。
数据仓库
大型数据存储,通常为关系型,包含一个组织多个维度或多个方面的数据。数据仓库通
常以“星型模式”组织,以便在事务成本和在线异步处理之间取得平衡。另请参见“企
业数据仓库”(
enterprise data warehouse
EDW
)。
数据库
简单来说,就是以电子格式存储的数据的集合。然而,它通常是“数据库管理系统”的
缩写。数据库管理系统是一个软件应用程序,负责存储在磁盘上的数据的组织、管理和
访问。
DataFrame
一种数据结构,指的是以行(案例或实例)和列(特征或度量)结构化的表格数据。
DataFrame
R
编程语言就开始流行,并在
Python
(通过
Pandas
库)和
SparkSQL
(现
在的
Spark DataFrame
)中实现。
DataNode ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Kudu:构建高性能实时数据分析存储系统

Kudu:构建高性能实时数据分析存储系统

Jean-Marc Spaggiari, Mladen Kovacevic, Brock Noland, Ryan Bosshart
Java并发编程实战

Java并发编程实战

Brian Goetz, Tim Peierls
面向机器学习的自然语言标注

面向机器学习的自然语言标注

James Pustejovsky, Amber Stubbs

Publisher Resources

ISBN: 9787115479648