book

数据可观测性的基础知识

by Andy Petrella

May 2025

Beginner to intermediate

266 pages

3h 10m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

本书概述谁应该阅读这本书本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
扩大数据团队规模扩大数据团队规模的挑战角色和职责分离与组织复杂性数据问题和后果剖析数据问题对数据团队动态的影响扩展人工智能的路障当前数据管理实践面临的挑战大规模数据管理的效果拯救数据可观察性可观察领域数据团队如何立即利用数据可观察性低延迟数据问题检测高效数据问题故障排除预防数据问题分散式数据质量管理补充现有的数据管理能力未来与未来结论
数据可观察性信息渠道日志痕迹衡量标准观测模型物理空间服务器用户静态空间动态空间期望规则自动异常检测防止 "垃圾进，垃圾出结论
数据架构数据可观察性在数据架构中的位置？具有数据可观察性的数据架构数据可观察性如何助力数据工程暗流涌动安全数据管理支持 Data Mesh 的数据即产品结论
在源头从源头生成数据观测Python 低级应用程序接口数据管道描述数据管道状态的定义数据管道的数据观测生成上下文数据观察结果生成与数据相关的观察结果生成与血统相关的数据观察结果总结：数据-可观测数据管道利用数据观测解决数据管道故障结论
抽象策略事件监听器面向方面的编程高级应用无代码应用程序低代码应用程序监测替代方案之间的差异结论
介绍期望左移数据质量角案件发现提升服务水平指标使用数据剖析器保持期望总体做法快速失败和安全失败简化测试并扩展 CI/CD结论

摄入阶段输入阶段数据可观察性配方Airbyte 代理转型转换阶段数据可观察性配方Apache Sparkdbt 代理服务食谱Python 中的 BigQuery利用 Airflow 协调 SQL分析机器学习食谱商业智能食谱结论
数据透明度不透明系统SaaS别碰它，它（有点）有用继承系统数据透明策略战略数据可观察性连接器示例：构建 dbt 数据可观察性连接器（SaaS）结论
统一处理生成里程碑值得信赖的扩展创意结论

Content preview from 数据可观测性的基础知识

第 2 章数据可观察性的组成部分数据可观测性的组成部分

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

正如第 1 章所介绍的，数据可观察性是（IT）可观察性与应用或分析等其他领域交叉的一个领域。在本章中，我们将介绍如何将图 2-1 所示的数据可观察性及其交互作用添加到系统中。

Areas of observability intersecting data observability area

正如第 1 章所讨论的，数据可观测性为观测者提供了更广泛的观测范围，通过结合系统的所有领域来解释系统的内部状态。然而，如果不遵守一些预防措施，这种组合本身也会成为一种挑战。本章将让您更深入地了解什么是观测以及观测应包含哪些内容。

本章介绍了数据可观察性的三个基本组成部分：可访问观察结果的渠道、描述观察结果结构的观察模型，以及为数据系统提供主动功能的预期。

数据可观察性信息渠道

数据可观察性的第一个组成部分是向观察者传递观察结果的渠道。有三种渠道：日志、跟踪和度量。这些渠道是所有可观察性领域的共同渠道，与数据可观察性没有严格的联系。

下文将对可观察性的三个主要渠道逐一进行定义。您可能已经熟悉这些渠道，但如果不熟悉，也有数百本书籍和博客会深入探讨这些渠道的定义。如果您想了解更多，我推荐您阅读《分布式系统可观察性》一书、¹这本书用了整整一章来定义这些通道。我还推荐《可观察性工程》（Observability Engineering）的第二部分、²以及Cloud Observability in Action。³

日志

日志在任何系统中都很常见。它们通常是文件（称为日志文件）中的文本行，代表应用程序在执行过程中发生的事件。

因此，日志是 IT 系统产生的最常见的观察渠道。日志有多种形式（如自由文本行、JSON），旨在封装事件信息。日志的每一行（通常日志是一行行的数据流）都是日志记录行为的结果。

日志记录是 IT 领域已有几十年历史的最佳实践，尤其是在基础设施、应用程序和安全领域。日志被用于调试和优化 IT 系统或流程。甚至还为日志制定了标准，如 Syslog，这些标准规定了日志结构，并允许异构基础设施由中央系统控制。

虽然日志对于捕捉系统行为信息至关重要，但很难利用日志来重现多步骤流程。这是因为日志包含系统内的所有活动，而一个流程的日志很可能与其他并发流程交错在一起，或分散在多个系统中（如分布式系统、服务网格）。

痕迹

出色的《可观察性工程》一书⁴将跟踪介绍为 "一种基本的软件调试技术，通过记录程序执行过程中的各种信息来诊断问题"。

跟踪可以看作是日志的一种特殊情况--流程执行步骤的重新连接。由于跟踪代表了同一进程中所有事件之间的联系，因此可以从日志中高效地推导出整个上下文。这一概念已扩展到满足分布式系统的需求，通常称为分布式跟踪，其中的跟踪事件（又称跨度），如调用网络服务、访问文件或查询数据库，在不同的系统中产生，但作为一个全局跟踪（通常是一个 ID）相互连接。

跟踪及其跨度是跟踪跨服务和服务器操作的有效方法，因为服务器、服务和事件时间戳等信息都会传达。因此，观察者可以在给定的时间内轻松浏览服务器上的服务日志，分析他们需要产生观察结果的特定事件的日志。

数据脉络是一种追踪形式

该元素表示一般性说明。

数据和分析中的另一种追踪形式是数据脉络，将在下一节中介绍。 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

Publisher Resources

ISBN: 9798341658349Supplemental Content

数据可观测性的基础知识

by Andy Petrella

第 2 章数据可观察性的组成部分数据可观测性的组成部分

图 2-1. 与数据可观测区域相交的可观测区域

数据可观察性信息渠道

日志

痕迹

数据脉络是一种追踪形式

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

C#并发编程经典实例（第2版）

Flink基础教程

大模型应用开发极简入门 : 基于GPT-4和ChatGPT

What Employees Want Most in Uncertain Times

Publisher Resources

第 2 章 数据可观察性的组成部分 数据可观测性的组成部分

图 2-1. 与数据可观测区域相交的可观测区域

数据可观察性信息渠道

日志

痕迹

数据脉络是一种追踪形式

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

C#并发编程经典实例（第2版）

Flink基础教程

大模型应用开发极简入门 : 基于GPT-4和ChatGPT

What Employees Want Most in Uncertain Times

Publisher Resources

第 2 章数据可观察性的组成部分数据可观测性的组成部分

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.