Skip to Content
For Enterprise
For Government
For Higher Ed
For Individuals
For Marketing
For Enterprise
For Government
For Higher Ed
For Individuals
For Marketing
Explore Skills
Cloud Computing
Microsoft Azure
Amazon Web Services (AWS)
Google Cloud
Cloud Migration
Cloud Deployment
Cloud Platforms
Data Engineering
Data Warehouse
SQL
Apache Spark
Microsoft SQL Server
MySQL
Kafka
Data Lake
Streaming & Messaging
NoSQL Databases
Relational Databases
Data Science
Pandas
R
MATLAB
SAS
D3
Power BI
Tableau
Statistics
Exploratory Data Analysis
Data Visualization
AI & ML
Generative AI
Machine Learning
Artificial Intelligence (AI)
Deep Learning
Reinforcement Learning
Natural Language Processing
TensorFlow
Scikit-Learn
Hyperparameter Tuning
MLOps
Programming Languages
Java
JavaScript
Spring
Python
Go
C#
C++
C
Swift
Rust
Functional Programming
Software Architecture
Object-Oriented
Distributed Systems
Domain-Driven Design
Architectural Patterns
IT/Ops
Kubernetes
Docker
GitHub
Terraform
Continuous Delivery
Continuous Integration
Database Administration
Computer Networking
Operating Systems
IT Certifications
Security
Network Security
Application Security
Incident Response
Zero Trust Model
Disaster Recovery
Penetration Testing / Ethical Hacking
Governance
Malware
Security Architecture
Security Engineering
Security Certifications
Design
Web Design
Graphic Design
Interaction Design
Film & Video
User Experience (UX)
Design Process
Design Tools
Business
Agile
Project Management
Product Management
Marketing
Human Resources
Finance
Team Management
Business Strategy
Digital Transformation
Organizational Leadership
Soft Skills
Professional Communication
Emotional Intelligence
Presentation Skills
Innovation
Critical Thinking
Public Speaking
Collaboration
Personal Productivity
Confidence / Motivation
Features
All features
Verifiable skills
AI Academy
Courses
Certifications
Interactive learning
Live events
Superstreams
Answers
Insights reporting
Radar Blog
Buy Courses
Plans
Sign In
Try Now
O'Reilly Platform
book
数据管道速查手册
by
James Densmore
May 2025
Intermediate to advanced
276 pages
2h 34m
Chinese
O'Reilly Media, Inc.
Book available
Content preview from
数据管道速查手册
索引
A
源系统和摄取之间的抽象层
,
引入抽象
层
气流
由 DAGS 处理的附加流水线任务
,
附加流水线任务 - 数据
验证检查
构建 DAG
,
构建气流 DAG--一个
ELT 管道 DAG
ELT 管道 DAG
,
一个 ELT 管道 DAG-An
ELT
Pipeline DAG
简单 DAG
,
一个简单 DAG
用传感器协调多个 DAG
,
用传感器协调多个 DAG
从 Airflow 获取
DAG 运行历史记录
-从
Airflow
获取 DAG 运行历史记录
托管选项
,
托管气流选项
设置和概述
,
Apache Airflow 设置和概述-
操作员
Airflow 数据库
,
Airflow 数据库
执行器
,
执行器
安装和配置 Airflow, 安装
和配置
官方文档网站
,
Web 服务器和用户界面
操作员
,
操作员
快速入门指南
,
安装和配置
调度程序
,
调度程序
网络服务器和用户界面
,
网络服务器和用户界面
在数据仓库中存储数据
,
准备数据仓库
在 DAG 中使用验证测试
,
在气流 DAG 中使用
警报和通知
在气流
、
警报和通知
中处理
验证测试失败时发送 Slack 通知
,
扩展框架-扩展
框架
亚马逊雅典娜
,
将文件存储用作数据湖
亚马逊 Redshift
(请参阅
Redshift 数据仓库)
亚马逊 Redshift 频谱
,
将文件存储用作数据湖
Apache 气流
(见
气流)
Apache Atlas
,
读取模式的局限性
Apache Kafka
(见
Kafka)
Apache Kafka Connect
、
使用 Kafka 和 Debezium 的流式数据输入
Apache Spark
、
分布式计算
Apache Zookeeper
、
使用 Kafka 和 Debezium 的流式数据输入
纯附录数据、建模
、
纯附录数据建模
天文学家
,
管理气流选项
属性
,
关键数据建模术语
AWS 控制台网络应用程序,内置查询编辑器
,
向 Redshift 仓库加载数据
AWS 胶水数据目录
,
读取模式的限制
AWS S3
(见
S3)
B
BashOperator
,
一个简单的 DAG
,
在 Airflow DAG 中的使用
在 Airflow DAG 中执行 Python 脚本
,
ELT 管道 DAG
MySQL数据的二进制日志复制
,
MySQL数据的二进制日志复制-
MySQL数据的
二进制日志复制
BinLogStreamReader 类
,
MySQL 数据的二进制日志复制
Boto3(适用于 Python 的 AWS SDK)
、
设置云文件存储
在 Python 脚本中执行 COPY 命令
、
向 Redshift 仓库加载数据
为 S3 存储桶上传 AWS 用户凭据
、
完整或增量 MySQL 表提取
C
CAST 功能
、
DAG 成功率
CDC(变更数据捕获)系统
、
使用 Kafka 和 Debezium 的流式数据输入
将从日志中提取的数据加载到 Redshift
,
加载从 CDC 日志中提取的数据
变更捕获数据建模
,
变更捕获数据建模
CeleryExecutor
,
Executors
数据的清洁度
、
数据的清洁度和有效性
Cloud Composer
,
托管气流选项
Cloud
云数据仓库和数据湖
,
云数据仓库和数据湖
数据摄取框架
、
商业替代方案
设置云文件存储
,
设置云文件存储-
从 MySQL 数据库中
提取
数据
基于列的数据仓库
,
ELT 取代 ETL 的兴起
通用表表达式 (CTE)
、
增量输入数据建模
验证测试中的比较运算符
,
验证测试的结构
configparser 库(Python)
,
从 REST API 提取数据
连接(Apache Kafka)
、
使用 Kafka 和 Debezium 进行流数据输入
连接信息、Redshift 群集
、
将 Amazon Redshift ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Start your free trial
You might also like
What Employees Want Most in Uncertain Times
Kristine W. Powers, Jessica B.B. Diaz
How I Built a Personal Board of Directors With GenAI
Vipin Gupta
Reinventing the Organization for GenAI and LLMs
Ethan Mollick
What Successful Project Managers Do
W. Scott Cameron, Jeffrey S. Russell, Edward J. Hoffman, Alexander Laufer
Publisher Resources
ISBN: 9798341657809