第 1 章. 数据可观测性介绍
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
很久很久以前,有一位名叫亚历克斯的年轻数据分析师,他对数据充满了极大的热情。亚历克斯热爱数据能够帮助企业做出明智决策、推动增长和取得成功。然而,亚历克斯也意识到曲解数据或对数据缺乏足够了解的危险。
亚历克斯正在与一位名叫莎拉的数据工程师合作开展一个重要项目。Sarah 负责准备数据,确保数据可以用于分析。随着对项目的深入研究,亚历克斯和莎拉意识到有许多变量在起作用,而且他们正在使用的数据并不像他们最初想象的那样简单。
有一天,当亚历克斯反复进行分析以产生洞察力时,他发现当天呈现的结果看起来很奇怪,很难与他之前看到的结果联系起来。他去找莎拉讨论这个案例,但莎拉需要更多关于他之前的解释是什么,或者他的期望是什么,以及他要求她检查的内容。
经过四天的合作、配对审查和数次头脑风暴,萨拉和亚历克斯发现,输入数据中六七个变量的分布发生了微妙变化,改变了几个转换步骤后产生的洞察力。一些变量有更多的缺失值,因此在清理转换中被放弃了,另一些变量的平均值则大大增加了,其中一个数据集由于从操作源中更好地提取了数据,数据量几乎是过去的两倍。
虽然莎拉和亚历克斯最初认为数据质量可能下降了,但数据似乎只是发生了变化,他们对数据的假设必须进行调整。他们意识到,幸运的是,这种情况是在将项目部署到生产中之前发生的,而这种情况今后可能还会多次发生。如果他们没有预见到这些变化,就会有麻烦。
这一经历让他们意识到数据可观察性的重要性。他们需要了解数据、数据转换及其使用情况,以便能够对任何变化做出快速反应。他们开始接受数据可观察性原则,并对其数据管道进行仪器化,以添加所需的功能,提供对数据、数据质量及其使用情况的实时洞察。
从那天起,他们就有了仪表板和通知系统的支持,这些系统可以跟踪管道中数据的健康状况,并提醒他们任何需要注意的问题,以确保客户始终收到准确可靠的数据。
通过这次经历,亚历克斯和莎拉认识到,数据是一个活生生的实体,需要持续监控和观察。他们意识到,如果没有数据的可观察性,就永远无法对变化做出快速反应,从而使项目的成功面临风险。
如果你正在阅读这本书,很可能是因为你和莎拉、亚历克斯一样,在自己的数据工作中经历过或预计会经历类似的情况。您了解数据的威力,但也知道即使是微小的变化也有可能被忽视而造成灾难性后果。
但你不知道需要做什么,也不知道如何开始。不用再担心了。在本书中,你将了解亚历克斯和萨拉是如何接受数据可观察性原则,并确保他们的数据管道是可靠的,确保他们的客户收到准确可信的数据。将这些原则应用到自己的工作中,你就能避免不可靠数据带来的隐患,为数据驱动项目的成功打下坚实的基础。
在进一步深入探讨什么是数据可观测性以及大规模数据可观测性之前,让我们先来看看数据团队是如何发展的,并明确他们所面临的挑战。
扩大数据团队规模
更多的角色、更多的责任、更多的工程。
数据团队是由数据从业人员组成的小组,他们共同收集、处理、分析和解释数据,以产生洞察力并为决策提供信息,从而推动取得更好的业务成果并提高组织绩效。
由于数据团队在企业中发挥着战略作用,其运营效率可能成为将高需求数据纳入关键业务运营的瓶颈。为了应对这种情况,数据团队的发展类似于 20 世纪 50 年代的 IT 团队--增加了系统工程师、网络工程师或后台工程师等专门角色,以支持特定的业务,而不再是通才角色。1
随着数据团队增加了更多的角色,其运营复杂性也随之增加,各成员和团队之间产生了更多的互动和相互依赖关系,从而更加需要提高可见性、透明度和标准化。 ...