
198
|
术语表
数据并行
一种在多个处理器之间进行计算的方法,其中数据分布在不同的节点上,各个节点同时
对数据应用相同或相似的计算。
数据产品
自适应的、广泛适用的经济引擎,从数据中获取价值,通过影响人类行为或通过对新数
据进行推论或预测,产生更多数据。
数据科学
创建和开发数据产品所涉及的工作流和过程。
数据科学流水线
描述数据科学分析过程的教学模式。流水线规定了一个线性过程,数据在其间被采集、
整理、计算、建模并最终得以可视化。
数据科学家
他们是拥有强大统计学背景的程序员,是具备高超程序设计能力的分析师,是非常了解
数据如何影响可视化的设计师,或是在构建数据产品方面富有创新思想的领域专家。在
任何情况下,数据科学家都是全能的通才,能够轻松学习新的方法来处理数据。
数据仓库
大型数据存储,通常为关系型,包含一个组织多个维度或多个方面的数据。数据仓库通
常以“星型模式”组织,以便在事务成本和在线异步处理之间取得平衡。另请参见“企
业数据仓库”(
enterprise data warehouse
,
EDW
)。
数据库
简单来说,就是以电子格式存储的数据的集合。然而,它通常是“数据库管理系统”的
缩写。数据库管理系统是一个软件应用程序,负责存储在磁盘上的数据的组织、管理和
访问。
DataFrame
一种数据结构,指的是以行(案例或实例)和列(特征或度量)结构化的表格数据。
DataFrame
从
R
编程语言就开始流行,并在
Python
(通过
Pandas
库)和
SparkSQL
(现
在的
Spark DataFrame
)中实现。
DataNode ...