book

Microsoft Fabric基础知识

Name: Microsoft Fabric基础知识
ISBN: 9798341661950

by Nikola Ilic, Ben Weissman

July 2025

Intermediate to advanced

428 pages

5h 39m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

前言
前言
谁应该阅读本书本书导航本书使用的约定O'Reilly 在线学习如何联系我们致谢
I.织物的基础
1.什么是 Microsoft Fabric？
微软 Fabric 的原因和意义大局观工作区和域一个湖数据工厂数据工程数据仓库数据科学实时智能Power BI数据库行业解决方案协同工作Fabric 定价模式概述
2.Microsoft Fabric 入门
创建 Azure 账户启用 Fabric使用 Fabric 的第一步创建工作区创建湖区构建仓库在 Power BI 中可视化 Fabric 数据概述
3.条条大路通罗马
数据湖概述数据存储解决方案的演变数据湖的重要性OneLake 简介计算与存储分离文件资源管理器OneLake 的独特之处OneLake 的基础三角洲和冰山格式互操作性可扩展性和性能存储在 OneLake 中的数据在OneLake中组织数据域工作区域与工作区的主要区别将数据导入 OneLake 并与 OneLake 集成数据输入方法集成机制OneLake 目录OneLake Explorer概述
II.功能：深入探讨
4.数据工厂
管道数据管道分步指南移动和转换数据比较数据移动功能扩展数据协调计划和触发器Apache Airflow摘要
5.数据工程
湖泊库的基本原理湖泊与数据湖奖章架构Microsoft Fabric 中的湖泊仓库湖泊模式将数据整合到 Lakehouse在 Lakehouse 中查询和处理数据利用 Spark 开展数据工程逐步示例：在笔记本中构建 ETL 管道摘要
6.数据仓库
数据仓库基础仓库与湖泊仓库Microsoft Fabric 中的仓库将数据整合到仓库中查询仓库Fabric 数据仓库的要素数据仓库与传统 SQL 引擎的比较T SQL 的局限性摘要

7.微软 Fabric 中的数据科学
MLflow销售预测的实验跟踪将模型作为 REST API 部署，为非技术团队提供支持管理模型版本SynapseMLAutoML语义链接可视化语义模型中的依赖关系利用最佳实践分析器规则优化语义模型翻译语义模型将现有语义模型迁移到Direct Lake增强黄金层摘要
8.实时智能
什么是流处理？实时枢纽事件流Eventhouse 和 KQL 数据库活动室KQL数据库实时智能查询和可视化数据KQL 查询集实时仪表盘使用 Power BI 可视化数据激活器激活器核心概念了解激活项使用 Power BI 数据使用实时集线器数据超越基本场景触发 Fabric 项目创建自定义操作以触发 Power Automate 流程摘要
9.Power BI
预架构时代的 Power BI 工作负载超快性能的导入模式用于实时报告的 DirectQuery 模式Microsoft Fabric 中的 Power BI 工作负载了解直接湖模式前提条件两种 "口味 "的 Direct Lake默认语义模型与自定义语义模型将语义模型与OneLake同步Direct Lake 关键概念Direct Lake如何工作？Direct Lake语义模型刷新（又称分帧）转码（将列加载到内存中）温度Direct Lake 护轨在 SQL 语义模型上控制 Direct Lake 的 DirectLakeBehaviorDirect Lake 限制摘要
10.SQL 数据库
为什么要在 Fabric 中使用 SQL 数据库？人工智能的作用运行效率SQL 数据库的关键功能简洁性和自主操作人工智能集成与优化集成治理与安全DevOps 集成使用 OneLake 统一数据存储GraphQL 接口接收和查询数据构建和管理 SQL 数据库的分步指南摘要
11.镜像
什么是镜像？镜像要求在租户中启用镜像Network+ 网络源数据限制从 Azure SQL DB 镜像的分步指南系统分配管理身份（SAMI）通过数据库负责人为 Fabric 授予访问权限创建镜像 Azure SQL 数据库Fabric Link 并非一回事摘要
12.用于 GraphQL 的 Microsoft Fabric API
GraphQL 核心操作在 Fabric 中使用 GraphQL使用 GraphQL API 查询数据创建关系使用突变进行更改利用变量实现超越摘要
13.AI 和 Copilots
什么是 Copilot？在 Microsoft Fabric 中启用 Copilot数据工厂的 Copilot用于数据工程和数据科学的 Copilot用于数据仓库的 CopilotPower BI 的 Copilot为Copilot准备语义模型在 Power BI 服务或 Power BI 桌面中创建报告在Copilot窗格中汇总报告内容使用 Copilot 编写 DAX用于实时智能的 Copilot用于 SQL 数据库的 CopilotMicrosoft Fabric 中的人工智能服务Microsoft Fabric 中的数据代理Fabric 数据代理与 Copilot使用 Fabric 数据代理摘要
III.将织物投入生产
14.Fabric 定价模式
计算和容量容量类型容量大小容量单位 (CU) 究竟是什么？容量突增（和平滑）容量限制存储用户许可证Network+地区差异附加定价摘要
15.管理和监控 Microsoft Fabric
使用 Microsoft Fabric 进行数据管理管理 Microsoft FabricMicrosoft Fabric 的层次结构使用管理门户监控 Microsoft Fabric监控中心容量指标应用程序Microsoft Purview 中枢管理员监控工作区摘要
16.保护 Microsoft Fabric
Microsoft Fabric 中的安全数据访问工作区级访问控制项级访问控制行级安全性对象级和列级安全性文件夹级访问控制捷径安全模型常见安全场景数据发现和信任OneLake 目录认可标签敏感性标签摘要
17.Microsoft Fabric 中的 CI/CD
CI/CD 工作流选项Git 集成部署管道生命周期管理推荐实践使用 Fabric REST API 自动执行 CI/CD 工作流摘要
18.Fabric 决策指南：何时选择
如何选择正确的选项选择分析引擎数据量支持的数据类型支持的编程语言支持的数据导入和数据访问方法访问控制OneLake 互操作性基于场景的决策指南镜像 Azure SQL 数据库与 SQL 数据库情景 1：包含业务数据的网络应用程序场景 2：包含敏感信息的大数据Fabric 中的 SQL 数据库与 Fabric 仓库场景 1：聚合大数据以生成分析报告场景 2：带有强制数据库的近实时操作报告强制数据库限制语义模型的直接湖模式与导入模式场景 1：使用 Power Query 的自助式 BI场景 2：接近实时的报告要求方案 3：耗费资源的数据刷新流程方案 4：使用 DAX 计算表/列方案 5：使用 T-SQL 视图方案 6：在 Lakehouse 的仓库/SQL 分析端点执行 RLS/OLS条条大路通 OneLake，但哪条才是正确之路？数据流 VS 笔记本 VS 管道 VS 镜像 VS 快捷方式方案 1：从内部数据源按原样输入数据方案 2：定制数据编写流程方案 3：为服务层转换数据V-Order 还是不 V-Order？总结
索引
关于作者

Content preview from Microsoft Fabric基础知识

第 5 章数据工程数据工程

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在第 4 章中，我们介绍了如何使用 Data Factory 中的工具和机制将数据加载到 Fabric 中；在本章中，我们将重点介绍数据工程体验。

数据工程涉及创建捕获、存储和处理大量数据所需的技术基础设施。这一领域包括设计从多个来源提取数据的管道、转换数据以确保高质量和统一性，以及将数据存储到数据库或存储解决方案中以便进行分析。数据工程师使用各种技术来保持这些系统的可靠性、高效性和可扩展性。他们的工作确保了数据的随时可用性和可用性，构成了数据分析的支柱，并为企业内明智的数据驱动型决策提供支持。

在一家每天处理数百万笔交易的电子商务公司中，我们可以看到数据工程在现实世界中的应用实例。数据工程师使用 Microsoft Fabric 设计管道，从各种来源（如网络日志、客户数据库和第三方支付处理器）提取原始销售数据。在笔记本中运行的 Spark 作业对这些数据进行清理和聚合--删除重复数据、处理缺失值并实现格式标准化--然后将其存储到湖泊库中，以便进一步分析。协调工具可确保这些流程在预定时间间隔内无缝运行，从而实现实时库存更新和动态定价策略。这种端到端的工作流程允许业务分析师和数据科学家访问高质量、结构化的数据，以进行销售预测、客户细分和个性化营销活动，展示了数据工程在推动数据驱动决策方面的关键作用。

在数据工程中，数据处理、转换和协调是将原始数据转化为可操作见解的重要角色，通常通过 Spark、笔记本、管道和作业等工具来实现。数据处理需要利用 Spark 高效、大规模处理大型数据集的能力，对来自多个来源的原始数据进行清理、聚合和结构化。转换可完善这些数据，以满足分析和业务要求。数据工程师可以使用笔记本对数据进行迭代器转换、可视化和验证，从而促进协作和精确性。然后，协调将这些工作流程自动化并进行调度，确保每个阶段都能可靠、有序地运行。管道和作业使数据工程师能够设计、跟踪和管理这些工作流，并对依赖关系、触发器和调度进行控制。这些功能共同实现了一个具有凝聚力的流程，为分析和机器学习准备高质量、及时的数据，支持从数据摄取到具有洞察力的结果的无缝旅程。

这也意味着第 4 章中的某些任务（例如管道）是数据工程师职责的一部分。在 Microsoft Fabric 的数据工程体验中，数据被组织并存储在湖泊中。

湖泊库的基本原理

Lakehouse是一种现代数据架构，它将数据湖的优势与先进的数据管理功能融合到一个统一的平台中。其核心是，Lakehouse 使企业能够在单一环境中管理所有类型的数据--结构化、半结构化和非结构化数据。湖泊中心的主要优势在于它能够以 JSON、图像、视频或日志等原始格式存储原始数据，同时还能对这些数据进行更复杂的处理和分析，包括实时洞察和机器学习应用。传统的存储系统通常需要为不同的数据格式提供独立的环境，而湖泊小屋则不同，它将所有数据汇集到一个具有可扩展性和灵活性的统一平台中。

湖泊中心还提供强大的数据管理功能，如执行模式定义、数据版本控制和 ACID 事务。

注意事项

ACID 事务是一组确保数据库处理可靠的属性：原子性（全有或全无执行）、一致性（维护数据完整性）、隔离性（事务的独立操作）和持久性（事务完成后的永久更改）。这些特性可确保可靠的事务处理并保持数据的准确性。

这些特性可确保各种流程中的数据完整性和一致性，使企业更容易管理、查询和分析大型数据集。Lakehouse 架构的一个主要特点是支持高级分析工作负载，使机器学习、人工智能和大数据处理都能在同一平台上实现。此外，Lakehouse ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341661950

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design