Skip to Content
大数据项目管理:从规划到实现
book

大数据项目管理:从规划到实现

by Ted Malaska, Jonathan Seidman
January 2020
Beginner to intermediate
155 pages
3h 17m
Chinese
Posts & Telecom Press
Content preview from 大数据项目管理:从规划到实现
确保数据完整性
125
源系统
如果无差异可
确认保真度
转换后的状态
反向转换后的
状态
反向转换
转换
字节比较
7-9:通过全字节比较进行数据验证
重复这个操作,直到相信自己的逻辑是正确的。为了确保持续的数据验证,可以将这个过
程自动化,并作为处理流的一部分一直运行下去。这将耗费更多的资源,但如果愿意投入
所需的费用和资源,那么就可以在进行常规数据摄取处理的同时大规模运行它。
7.2.4
 校验和比较
如果一直进行全字节比较,成本可能会非常高。但即使如此,我们仍然希望保证数据完整
性。一种相对简单的方法是使用数据值的校验和。应该怎么做呢?
举一个简单的示例,假设有两张表,一张在关系数据库中,另一张在
Amazon S3
Hive
中。表结构如下所示:
CREATE TABLE FOO (
STR_COL STRING,
INT_COL INT,
DOUBLE_COL DOUBLE)
然后,可以在两张表上运行如下所示的
SQL
语句,确认各列的值是相等的:
SELECT SUM(HASH(STR_COL)), SUM(INT_COL), SUM(DOUBLE_COL) FROM FOO
你可能会说,如果真实值不一样,那么这个查询仍然可能产生匹配的值。这是有可能的,
例如下面的记录:
STR_COL INT_COL DOUBLE_COL
A 2 1
B 3 2
C 1 3
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Web开发的身份和数据安全

Web开发的身份和数据安全

Jonathan LeBlanc, Tim Messerschmidt
Presto实战

Presto实战

Matt Fuller, Manfred Moser, Martin Traverso
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115457363