第5章 关系数据库
第2章“数据预处理”曾出现过一些数据存储的标准方法。在那里,可以看到小型的非结构化数据通常存储在文本文件中,数据字段的分隔使用空格、制表符或逗号。小的结构化数据集使用XML和JSON这样的格式可以处理得更好。
数据库则是一个大型的数据集合,通常是结构化的,并通过独立的软件系统访问。
本章将讨论关系数据库及其管理系统。第10章“使用NoSQL数据库”将考查非关系数据库。
5.1 关系数据模型
关系数据库(relational database)将数据存储在由特定结构约束联系起来的表中。词汇“关系”源于其数学概念,它在本质上和表一样。确切定义如下。
域(domain)是数据类型相同的数据值集合,数据类型通常是整数、小数或者文本,也可能是布尔值(True/False
),名义值或者URL等。如果是域,那么它们的笛卡儿乘积(Cartesian product)是集合的所有n个成分的集合,其中每个。这样的集合叫作元组(当n=8时就是八维的)。元组类似于向量,只是元组的成分数据可以是不同的类型,而向量的成分数据通常就是数字。关系是域笛卡儿积的子集,即全部来自相同的域序列 ...
Get Java数据分析指南 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.