
|
145
将数据集连接到一起
条件而根本不会连接的数据集连接在一起呢?答案是数据质量。通过创建一个
notInner
(非内连接),你可以把不符合连接条件的数据当作未来要重新加入的
数据。这是一种很好的错误检查技术,因为它可以帮助你验证内连接返回的内容。
根据数据集的具体情况,可以采取类似的方式,使用
leftOnly
(仅限左连接)或
rightOnly
(仅限右连接),但只从其中一个表返回不满足连接条件的数据。
left
(左连接)
左连接几乎和常见的内连接一样。因为左连接会返回左表的每一条记录,所以
你可以认为右表被追加到左表的相关行。然而,当右表的两条或多条记录与左
表的一条记录相匹配时,左表的记录会因为右表的每条记录而重复。
full
(全连接)
当你想返回两个表的所有数据字段,但又想为满足指定的连接条件的数据创建
一条记录时,可使用
full
(全连接)。在将不同的数据源连接在一起,并希望返
回所有数据时,例如,当你在两个组织合并期间连接两个客户数据集时,全连
接可能是合适的解决方案。
16.5
小结
连接是为你的数据分析添加更多上下文信息的绝妙方法,因为你可以添加原始来源
中没有的数据。在非唯一连接条件下会有一些挑战(我们将在以后的章节中讨论这
个话题),但希望本章能帮助你更好地了解如何以及何时使用不同类型的连接。