Skip to Main Content
Spark高级数据分析(第2版)
book

Spark高级数据分析(第2版)

by Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
June 2018
Beginner to intermediate content levelBeginner to intermediate
246 pages
6h 57m
Chinese
Posts & Telecom Press
Content preview from Spark高级数据分析(第2版)
Scala
Spark
进行数据分析
11
是,有些属性值有问题:格式不一致,或有笔误,或信息缺失。如果简单地对这些属性
作相等性测试,就会漏掉许多重复记录。举个例子,我们看看表
2-1
列出的几家商店的
记录。
2-1:记录关联问题的难点
名  称 地  址 城  市 电  话
Josh
s Coffee Shop 1234 Sunset Boulevard West Hollywood CA (213)-555-1212
Josh Coffee 1234 Sunset Blvd West Hollywood CA 555-1212
Coffee Chain #1234 1400 Sunset Blvd #2 Hollywood CA 206-555-1212
Coffee Chain Regional Office 1400 Sunset Blvd Suite 2 Hollywood California 206-555-1212
表中前两行其实指同一家咖啡店,但由于数据录入错误,这两项看起来是在不同城市
West Hollywood
Hollywood
)。相反,表中后两行其实是同一家咖啡连锁店的不同业
务部门,尽管它们有相同的地址:地址
1400 Sunset Blvd #2
是咖啡店的实际地址,另一
个地址
1400 Sunset Blvd Suite 2
则是公司在当地的一个办公室地点。后两项给的都是公司
Seattle
总部的官方电话号码。
这个例子清楚地说明了记录关联为什么很困难:即使两组记录看起来相似,但针对每一组 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial

You might also like

大数据项目管理:从规划到实现

大数据项目管理:从规划到实现

Ted Malaska, Jonathan Seidman
管理Kubernetes

管理Kubernetes

Brendan Burns, Craig Tracey

Publisher Resources

ISBN: 9787115482525