
310
|
第
9
章
嵌入式分析的速度和时延要求。
提高嵌入式分析的性能需要解决三个问题。第一,应用程序的用户不会像公司内的分
析师那样容忍批处理。一个招聘
SaaS
平台的用户在上传简历的那一刻就希望看到他们
的个人数据有所变化。用户都希望获得
低延迟
的数据。第二,数据应用程序的用户想要
更高的
查询效率
。当在分析仪表板上调整参数后,用户想看到的是结果在几秒内刷新出
来。第三,数据应用程序需要支持发生在多个仪表板和众多用户中非常高的查询率。那
么支持高
并发
就是非常关键的。
谷歌和其他早入场的数据应用程序厂商开发了独特的技术来应对这些挑战。对于新入场
的厂商,数据应用程序的默认配置是传统的事务数据库。当用户群体扩张后,最开始的
架构往往就无法应对了。这时就可以转向新一代拥有快速查询、高并发,以及近实时更
新并且易用(例如基于
SQL
的分析)的高性能数据库。
9.3
机器学习
第二个数据服务的主要领域就是机器学习。机器学习正在变得普遍,所以我们假设读者
已经了解这些概念了。随着机器学习工程的崛起(它本身也可以算是数据工程的平行宇
宙),数据工程师如何服务于机器学习工程的图景是一个问题。
不可否认,机器学习、数据科学、数据工程以及机器学习工程的界限正在变得模糊,并
且在各个组织内部都形态各异。在某些组织中,机器学习工程师负责处理为机器学习
应用程序处理收集到的数据,有时甚至会形成独立且平行工作的数据组织来处理整个机
器学习应用程序生命周期的数据。在另一些组织中,数据工程师负责全部的数据处理流
程,然后向机器学习工程师交付模型训练用的数据 ...