第 1 章. 数据平台现代化:介绍性概述
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
数据是宝贵的资产,可以帮助公司做出更好的决策、发现新的机遇并改善运营。2013 年,谷歌开展了一项战略项目,通过提高管理者素质来留住员工。即使像经理技能这样松散的东西,也可以通过数据驱动的 方式进行研究。谷歌通过分析 10K 份绩效评语,找出高绩效经理的常见行为,并制定培训计划,将管理层的好感度从 83% 提高到 88%。战略数据项目的另一个例子是在亚马逊实施的。这家电商巨头实施了一个基于客户行为的推荐系统,该系统在 2017 年推动了 35% 的购买量。旧金山篮球队勇士队(Warriors)是另一个例子;他们制定了一项分析计划,帮助他们跃居联盟第一。所有这些--留住员工、推荐产品、提高胜率--都是通过现代数据分析实现业务目标的例子。
要成为一家数据驱动型公司,您需要建立一个用于数据分析、处理和洞察的生态系统。这是因为有许多不同类型的应用程序(网站、仪表盘、移动应用程序、ML 模型、分布式设备等)会创建和消费数据。公司内部也有许多不同的部门(财务、销售、营销、运营、物流等)需要数据驱动的洞察力。由于整个公司都是您的客户群,因此构建数据平台不仅仅是一个 IT 项目。
本章介绍数据平台及其要求,以及为什么传统数据架构证明是不够的。它还讨论了数据分析和人工智能的技术趋势,以及如何利用公共云构建面向未来的数据平台。本章是对本书其余部分详细介绍的核心主题的总体概述。
数据生命周期
数据 平台的目的是支持企业将原始数据转化为有洞察力的信息所需的步骤。了解数据生命周期的各个步骤(收集、存储、处理、可视化、激活)很有帮助,因为这些步骤几乎可以原封不动地映射到数据架构中,从而创建一个统一的分析平台。
智慧之旅
数据可以帮助公司开发更智能的产品、接触更多客户并提高投资回报率(ROI)。数据还可用于衡量客户满意度、盈利能力和成本。但仅有数据是不够的。数据是原材料,需要经过一系列阶段才能用于产生洞察力和知识。这一系列阶段就是我们所说的数据生命周期。文献中有许多定义,但从一般角度来看,我们可以确定现代数据平台架构的五个主要阶段:
- 1.收集
-
必须获取数据并将其注入目标系统(例如,手动输入数据、批量加载、流式输入等)。
- 2.存储
-
数据需要以持久的方式保存,并能在未来轻松访问(如文件存储系统、数据库)。
- 3.加工/转化
-
必须对数据进行处理,使其对后续步骤有用(如清理、整理、转换)。
- 4.分析/可视化
-
需要对数据进行研究,以便通过人工阐释(如查询、切片和切块)或自动处理(如使用 ML 应用程序编程接口丰富数据)获得业务洞察力。
- 5.启动
-
以可做出决策的形式和地点展现数据见解(例如,作为特定手动操作触发器的通知、满足特定条件时的自动作业执行、向设备发送反馈的 ML 模型)。
每一个阶段都与下一个阶段相辅相成,就像水流通过一组管道一样。
水管类比
为了更好地理解数据生命周期,可以把它想象成一个简化的水 管道系统。水从引水渠开始,然后通过一系列管道进行传输和转换,直至到达一组房屋。数据生命周期与此类似,在用于决策之前,要对数据进行收集、存储、处理/转换和分析(见图 1-1)。
图 1-1. 水的生命周期,可类比数据生命周期的五个步骤 ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access