Skip to Content
大数据项目管理:从规划到实现
book

大数据项目管理:从规划到实现

by Ted Malaska, Jonathan Seidman
January 2020
Beginner to intermediate
155 pages
3h 17m
Chinese
Posts & Telecom Press
Content preview from 大数据项目管理:从规划到实现
124
7
7.2.2
 唯一计数
唯一计数是指计算每一列不同单元格的值,可以把它想象成表中每一列的单词计数。因
此,如果有一个类似于下面这样的表,那么第
2
列的唯一计数将是
Dog:3
Cat:4
1 Dog Foo
2 Dog Foo
3 Cat Foo
4 Dog Foo
5 Cat Foo
6 Cat Foo
7 Cat Foo
这种方法主要有
3
个问题。首先,它无法验证唯一值的顺序。因此,如果对上面的表和下
面的表执行唯一计数查询,结果是匹配的,但并没有保持保真度,因为第
3
行的
Dog
和第
4
行的
Cat
掉换了顺序。
1 Dog Foo
2 Dog Foo
3 Dog Foo
4 Cat Foo
5 Cat Foo
6 Cat Foo
7 Cat Foo
其次,它容易受到
高基数列
的影响。高基数列是指包含大量唯一值的列。在前面的示例
中,第一列是非重复
ID
。这在计算大型数据集时成本非常高。
最后,与检查校验和相比,唯一计数的成本总体上会更高。而且,校验和提供了更高的保
真度。
虽然唯一计数不是检查完全保真度的理想选择,但作为初始的完整性检查还是很有用的。
7.2.3
 全字节比较
对数据进行全字节比较的成本最高,步骤如图
7-9
所示。
(1)
从数据源读取数据,并保存为原始形式,将其传递给执行数据转换或重新格式化的
服务。
(2)
转换数据并写入目标系统。
(3)
处于转换状态的数据位于目标系统中,就像在正常的摄取路径中一样。
(4)
从目标系统提取数据并再次转换回原始状态。
(5)
将初始的原始数据和还原的原始数据保存在同一个存储系统中。 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

Web开发的身份和数据安全

Web开发的身份和数据安全

Jonathan LeBlanc, Tim Messerschmidt
Presto实战

Presto实战

Matt Fuller, Manfred Moser, Martin Traverso
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115457363