Skip to Content
Microsoft Fabric基础知识
book

Microsoft Fabric基础知识

by Nikola Ilic, Ben Weissman
July 2025
Intermediate to advanced
428 pages
5h 39m
Chinese
O'Reilly Media, Inc.
Content preview from Microsoft Fabric基础知识

第 5 章 数据工程 数据工程

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

第 4 章中,我们介绍了如何使用 Data Factory 中的工具和机制将数据加载到 Fabric 中;在本章中,我们将重点介绍数据工程体验。

数据工程涉及创建捕获、存储和处理大量数据所需的技术基础设施。这一领域包括设计从多个来源提取数据的管道、转换数据以确保高质量和统一性,以及将数据存储到数据库或存储解决方案中以便进行分析。数据工程师使用各种技术来保持这些系统的可靠性、高效性和可扩展性。他们的工作确保了数据的随时可用性和可用性,构成了数据分析的支柱,并为企业内明智的数据驱动型决策提供支持。

在一家每天处理数百万笔交易的电子商务公司中,我们可以看到数据工程在现实世界中的应用实例。数据工程师使用 Microsoft Fabric 设计管道,从各种来源(如网络日志、客户数据库和第三方支付处理器)提取原始销售数据。在笔记本中运行的 Spark 作业对这些数据进行清理和聚合--删除重复数据、处理缺失值并实现格式标准化--然后将其存储到湖泊库中,以便进一步分析。协调工具可确保这些流程在预定时间间隔内无缝运行,从而实现实时库存更新和动态定价策略。这种端到端的工作流程允许业务分析师和数据科学家访问高质量、结构化的数据,以进行销售预测、客户细分和个性化营销活动,展示了数据工程在推动数据驱动决策方面的关键作用。

在数据工程中,数据处理、转换和协调是将原始数据转化为可操作见解的重要角色,通常通过 Spark、笔记本、管道和作业等工具来实现。数据处理需要利用 Spark 高效、大规模处理大型数据集的能力,对来自多个来源的原始数据进行清理、聚合和结构化。转换可完善这些数据,以满足分析和业务要求。数据工程师可以使用笔记本对数据进行迭代器转换、可视化和验证,从而促进协作和精确性。然后,协调将这些工作流程自动化并进行调度,确保每个阶段都能可靠、有序地运行。管道和作业使数据工程师能够设计、跟踪和管理这些工作流,并对依赖关系、触发器和调度进行控制。这些功能共同实现了一个具有凝聚力的流程,为分析和机器学习准备高质量、及时的数据,支持从数据摄取到具有洞察力的结果的无缝旅程。

这也意味着第 4 章中的某些任务(例如管道)是数据工程师职责的一部分。在 Microsoft Fabric 的数据工程体验中,数据被组织并存储在湖泊中。

湖泊库的基本原理

Lakehouse是一种现代数据架构,它将 数据湖的优势与先进的数据管理功能融合到一个统一的平台中。其核心是,Lakehouse 使企业能够在单一环境中管理所有类型的数据--结构化、半结构化和非结构化数据。湖泊中心的主要优势在于它能够以 JSON、图像、视频或日志等原始格式存储原始数据,同时还能对这些数据进行更复杂的处理和分析,包括实时洞察和机器学习应用。传统的存储系统通常需要为不同的数据格式提供独立的环境,而湖泊小屋则不同,它将所有数据汇集到一个具有可扩展性和灵活性的统一平台中。

湖泊中心还提供强大的数据管理功能,如执行模式定义、数据版本控制和 ACID 事务。

注意事项

ACID 事务是一组确保数据库处理可靠的属性:原子性(全有或全无执行)、一致性(维护数据完整性)、隔离性(事务的独立操作)和持久性(事务完成后的永久更改)。 这些特性可确保可靠的事务处理并保持数据的准确性。

这些特性可确保各种流程中的数据完整性和一致性,使企业更容易管理、查询和分析大型数据集。Lakehouse 架构的一个主要特点是支持高级分析工作负载,使机器学习、人工智能和大数据处理都能在同一平台上实现。此外,Lakehouse ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

Microsoft Fabric の基礎

Microsoft Fabric の基礎

Nikola Ilic, Ben Weissman
低代码AI

低代码AI

Gwendolyn Stripling, Michael Abel

Publisher Resources

ISBN: 9798341661950