book

数据可观测性的基础知识

Name: 数据可观测性的基础知识
Author: Andy Petrella
ISBN: 9798341658349

by Andy Petrella

May 2025

Beginner to intermediate

266 pages

3h 10m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
本书概述谁应该阅读这本书本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
I.数据可观测性介绍
1.数据可观察性介绍
扩大数据团队规模扩大数据团队规模的挑战角色和职责分离与组织复杂性数据问题和后果剖析数据问题对数据团队动态的影响扩展人工智能的路障当前数据管理实践面临的挑战大规模数据管理的效果拯救数据可观察性可观察领域数据团队如何立即利用数据可观察性低延迟数据问题检测高效数据问题故障排除预防数据问题分散式数据质量管理补充现有的数据管理能力未来与未来结论
2.数据可观测性的组成部分
数据可观察性信息渠道日志痕迹衡量标准观测模型物理空间服务器用户静态空间动态空间期望规则自动异常检测防止 "垃圾进，垃圾出结论
3.数据可观测性在数据组织中的作用
数据架构数据可观察性在数据架构中的位置？具有数据可观察性的数据架构数据可观察性如何助力数据工程暗流涌动安全数据管理支持 Data Mesh 的数据即产品结论
II.实现数据可观察性
4.生成数据观测
在源头从源头生成数据观测Python 低级应用程序接口数据管道描述数据管道状态的定义数据管道的数据观测生成上下文数据观察结果生成与数据相关的观察结果生成与血统相关的数据观察结果总结：数据-可观测数据管道利用数据观测解决数据管道故障结论
5.自动生成数据观测结果
抽象策略事件监听器面向方面的编程高级应用无代码应用程序低代码应用程序监测替代方案之间的差异结论
6.落实期望
介绍期望左移数据质量角案件发现提升服务水平指标使用数据剖析器保持期望总体做法快速失败和安全失败简化测试并扩展 CI/CD结论
III.行动中的数据可观察性

7.在数据堆栈中整合数据可观察性
摄入阶段输入阶段数据可观察性配方Airbyte 代理转型转换阶段数据可观察性配方Apache Sparkdbt 代理服务食谱Python 中的 BigQuery利用 Airflow 协调 SQL分析机器学习食谱商业智能食谱结论
8.让不透明系统变透明
数据透明度不透明系统SaaS别碰它，它（有点）有用继承系统数据透明策略战略数据可观察性连接器示例：构建 dbt 数据可观察性连接器（SaaS）结论
后记未来展望
统一处理生成里程碑值得信赖的扩展创意结论
索引
关于作者

Content preview from 数据可观测性的基础知识

第 7 章在数据堆栈中集成数据可观察性在数据堆栈中集成数据可观察性

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在上一章中，你了解了数据可观察性的三个组成部分，以及如何在日常数据工作中应用数据可观察性。在本章中，我们将动手实践这些概念。

本章的目标是提供一些食谱，帮助你将数据可观测性集成到你的管道中，提供技术材料来提高你的能力，使你的框架和应用程序具有数据可观测性--然后，就像一个好厨师对任何食谱所做的那样，你将对它进行个性化、扩展和改进。我将解释正确的操作步骤、每个步骤的目的以及如何操作。剧透警告：这将不时变得非常技术化--几乎是书呆子--但相信我，这是值得的。

为使本章具有逻辑流程，我将遵循 Joe Reis 和 Matt Housley 在《数据工程基础》中介绍的数据工程生命周期（图 7-1）。

The Data Engineering Lifecycle (Courtesy of Joe Reis and Matthew Housley)

数据可观察性位于数据工程的暗流中，是数据运营的一部分。要生成第 2 章中讨论的值，数据可观察性平台必须同时存在于数据架构和暗流层中。虽然我不会过多讨论生成阶段，但我会介绍摄取、转换和服务，并举例说明数据可观察性如何支持这些操作。

数据的可观察性很自然地延伸到数据工程生命周期所产生的结果，而满足消费者的责任是我在本书中迄今为止所介绍的思维方式的固有特点。因此，我还将介绍建立在所提供数据基础上的数据产品，尤其是分析（如报告）和机器学习。

让我们从摄入阶段开始。

摄入阶段

摄取阶段包括从业务应用程序部署和使用的源头移动数据。数据工程师对应用程序、数据和生成数据的团队的控制力最弱。有时，这类似于与第三方供应商合作。因此，摄取是将数据从一个系统转移到另一个我们可以控制的系统。

因此，数据摄取是第一道可见性防线，因为大多数下游问题都源于此。事实上，在摄取阶段，您可以预测大多数数据灾难，并防止剧烈传播（又称数据级联）。²并防止剧烈传播（又称数据级联³ ）的阶段。

摄取的第一步是连接外部或孤立的数据源。在这一阶段，数据团队失去了对流程的完全控制。要重新获得影响力和更多控制权，数据团队必须创造更高的可见性，以明确传达他们的请求，并以指标、趋势等事实作为支持。否则，对方很可能会拒绝所有请求或降低其优先级，从而使数据团队陷入必须不断 "清理 "数据的境地，而不是从源头解决问题。

如图 7-2 所示，摄取是第一道防线，但也是对必须验证的内容了解较少的地方，因为数据管道的目的是提炼、组合和生成更高级的见解。此外，随着数据向下游移动到许多用途，影响的数量会呈扇形增长，这意味着从这里开始的数据级联会产生更大的影响（蝴蝶效应或雪球效应）。因此，由于根本原因分析通常会在此停止，因此必须定期检查和更新摄取。在摄取过程中捕捉事件可以避免下游约 85% 的问题，甚至更多。但是，由于缺乏相关知识，或者由于很难在不增加检查次数的情况下提前预见到所有使用案例，良好的摄取实践通常是在事后分析的基础上发展起来的，或者因为某些预期跟踪的指标已经能够突出显示异常情况。例如，摄取的数据源可能有一个字段在某些转换中用作过滤器，分成几个组来执行细分，并与另一个数据源的另一个字段聚合来计算业务关键绩效指标。这样的用途不胜枚举，因此，要在一开始（数据摄取）就实施所有相关检查，即使不是不可能，也会让人望而生畏；实际上，我几乎可以说，这种可能性微乎其微，甚至无关紧要。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341658349

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

数据可观测性的基础知识

by Andy Petrella

第 7 章在数据堆栈中集成数据可观察性在数据堆栈中集成数据可观察性

图 7-1. 数据工程生命周期¹(由 Joe Reis 和 Matthew Housley 提供）

摄入阶段

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.