第 5 章 数据工程 数据工程
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
在第 4 章中,我们介绍了如何使用 Data Factory 中的工具和机制将数据加载到 Fabric 中;在本章中,我们将重点介绍数据工程体验。
数据工程涉及创建捕获、存储和处理大量数据所需的技术基础设施。这一领域包括设计从多个来源提取数据的管道、转换数据以确保高质量和统一性,以及将数据存储到数据库或存储解决方案中以便进行分析。数据工程师使用各种技术来保持这些系统的可靠性、高效性和可扩展性。他们的工作确保了数据的随时可用性和可用性,构成了数据分析的支柱,并为企业内明智的数据驱动型决策提供支持。
在一家每天处理数百万笔交易的电子商务公司中,我们可以看到数据工程在现实世界中的应用实例。数据工程师使用 Microsoft Fabric 设计管道,从各种来源(如网络日志、客户数据库和第三方支付处理器)提取原始销售数据。在笔记本中运行的 Spark 作业对这些数据进行清理和聚合--删除重复数据、处理缺失值并实现格式标准化--然后将其存储到湖泊库中,以便进一步分析。协调工具可确保这些流程在预定时间间隔内无缝运行,从而实现实时库存更新和动态定价策略。这种端到端的工作流程允许业务分析师和数据科学家访问高质量、结构化的数据,以进行销售预测、客户细分和个性化营销活动,展示了数据工程在推动数据驱动决策方面的关键作用。
在数据工程中,数据处理、转换和协调是将原始数据转化为可操作见解的重要角色,通常通过 Spark、笔记本、管道和作业等工具来实现。数据处理需要利用 Spark 高效、大规模处理大型数据集的能力,对来自多个来源的原始数据进行清理、聚合和结构化。转换可完善这些数据,以满足分析和业务要求。数据工程师可以使用笔记本对数据进行迭代器转换、可视化和验证,从而促进协作和精确性。然后,协调将这些工作流程自动化并进行调度,确保每个阶段都能可靠、有序地运行。管道和作业使数据工程师能够设计、跟踪和管理这些工作流,并对依赖关系、触发器和调度进行控制。这些功能共同实现了一个具有凝聚力的流程,为分析和机器学习准备高质量、及时的数据,支持从数据摄取到具有洞察力的结果的无缝旅程。
这也意味着第 4 章中的某些任务(例如管道)是数据工程师职责的一部分。在 Microsoft Fabric 的数据工程体验中,数据被组织并存储在湖泊中。
湖泊库的基本原理
Lakehouse是一种现代数据架构,它将 数据湖的优势与先进的数据管理功能融合到一个统一的平台中。其核心是,Lakehouse 使企业能够在单一环境中管理所有类型的数据--结构化、半结构化和非结构化数据。湖泊中心的主要优势在于它能够以 JSON、图像、视频或日志等原始格式存储原始数据,同时还能对这些数据进行更复杂的处理和分析,包括实时洞察和机器学习应用。传统的存储系统通常需要为不同的数据格式提供独立的环境,而湖泊小屋则不同,它将所有数据汇集到一个具有可扩展性和灵活性的统一平台中。
湖泊中心还提供强大的数据管理功能,如执行模式定义、数据版本控制和 ACID 事务。
注意事项
ACID 事务是一组确保数据库处理可靠的属性:原子性(全有或全无执行)、一致性(维护数据完整性)、隔离性(事务的独立操作)和持久性(事务完成后的永久更改)。 这些特性可确保可靠的事务处理并保持数据的准确性。
这些特性可确保各种流程中的数据完整性和一致性,使企业更容易管理、查询和分析大型数据集。Lakehouse 架构的一个主要特点是支持高级分析工作负载,使机器学习、人工智能和大数据处理都能在同一平台上实现。此外,Lakehouse ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access