
276
|
第
8
章
绝大部分与我们交谈过的流数据专家都建议预测源数据的变化,并保持一个灵活的模
式。这意味着在分析数据库中没有固定的数据模型。否则,我们只能假设源系统就像今
天存在的那样提供正确的数据以及正确的业务定义和逻辑。因为存储很便宜,所以可以
将近期发生的增量数据和历史的存量数据放在一起查询。我们需要针对具有灵活模式的
数据集进行综合分析和优化。此外,与其对报表端提出的异常做出响应,为什么不使用
自动化的方式对流数据中的异常和变化做出反应呢?
数据建模这个领域正在发生变化,我们相信数据模型范式很快就会发生巨大变化。这些
新的方法可能会将指标和语义层、数据管道和传统的分析工作流纳入直接位于源系统之
上的流数据层。由于数据是实时生成的,人为地将源系统和分析系统分成两部分可能不
像数据移动更慢、更可预测时那样有意义。时间会告诉我们答案。
关于流数据的未来,我们在第
11
章做更多介绍。
8.3
转换
数据转换的净收益是统一和整合数据的能力。当数据被转换的时候,数据可以看作
一个单一的实体。但是,如果不对数据进行转换,你就无法在整个组织内对数据有
一个统一的看法。
—
Bill Inmon
注
13
我们已经介绍了查询和数据建模,你可能会想如果我可以对数据进行建模、查询并获得
结果,为什么我还需要考虑转换呢?数据转换可以为下游修改、增强和保存数据,以可
扩展、可靠和经济的方式增加其价值。
1
想象一下当你每次想查看某个特定数据集的结果时都要执行一个查询。你每天要运行相
同的查询几十次或几百次。假设这个查询涉及
20
个数据集的解析 ...