序言
本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com
数据管道是数据分析和机器学习取得成功的基础。从众多不同的来源移动数据并对其进行处理以提供上下文,是拥有数据和从中获取价值的区别所在。
作为一名数据分析师、数据工程师和数据分析领域的领导者,我已经工作了 10 多年。在此期间,我目睹了这一领域的快速变化和发展。云基础设施,特别是云数据仓库的出现,为重新思考数据管道的设计和实施方式创造了机会。
本书介绍了我认为在现代构建数据管道的基础和最佳实践。我的观点和观察基于我自己的经验以及我所了解和追随的行业领导者的经验。
我的目标是将本书作为蓝图和参考。虽然您的需求是您的组织和您要解决的问题所特有的,但我发现这些基础的变化已经取得了多次成功。我希望这本书能成为您构建和维护数据管道的宝贵资源,为您的数据组织提供动力。
本书适合人群
本书的主要读者是希望了解什么是数据管道以及如何实施数据管道的在职和有抱负的数据工程师以及分析团队成员。他们的职称包括数据工程师、技术主管、数据仓库工程师、分析工程师、商业智能工程师和总监/副总裁级别的分析领导。
我假设你对数据仓库概念有基本的了解。要实施所讨论的示例,您应该能够熟练使用 SQL 数据库、REST API 和 JSON。您应该精通 Python 等脚本语言。掌握 Linux 命令行和至少一种云计算平台的基本知识也很理想。
所有代码示例均使用 Python 和 SQL 编写,并利用了许多开源库。我使用亚马逊网络服务(AWS)来演示书中描述的技术,许多代码示例中都使用了 AWS 服务。在可能的情况下,我注意到其他主要云提供商的类似服务,如 Microsoft Azure 和 Google Cloud Platform (GCP)。所有代码示例都可以根据您选择的云提供商进行修改,也可以在企业内部使用。
本书使用的约定
本书使用以下排版规则:
- 斜体
-
表示新术语、URL、电子邮件地址、文件名和文件扩展名。
Constant width-
用于程序列表以及段落中的程序元素,如变量或函数名、数据库、数据类型、环境变量、语句和关键字。
Constant width bold-
显示应由用户按字面意思键入的命令或其他文本。
Constant width italic-
显示应替换为用户提供的值或根据上下文确定的值的文本。
使用代码示例
补充材料(代码示例、练习等)可在https://oreil.ly/datapipelinescode 上下载。
如果您在使用代码示例时遇到技术问题或困难,请发送电子邮件至bookquestions@oreilly.com。
本书旨在帮助您完成工作。一般来说,如果本书提供了示例代码,您可以在您的程序和文档中使用。除非你要复制代码的重要部分,否则不需要联系我们获得许可。例如,在编写程序时使用本书中的几段代码不需要获得许可。销售或分发 O'Reilly 书籍中的示例需要获得许可。通过引用本书和示例代码回答问题不需要许可。将本书中的大量示例代码纳入您的产品文档需要获得许可。
我们感谢但一般不要求署名。署名通常包括标题、作者、出版商和 ISBN。例如"《数据管道袖珍参考》,James Densmore 著(O'Reilly)。版权 2021 James Densmore,978-1-492-08783-0"。
如果您认为您对代码示例的使用超出了合理使用或上述许可范围,请随时联系我们:permissions@oreilly.com。 ...