Skip to Content
用于 DevOps 的 Python
book

用于 DevOps 的 Python

by Noah Gift, Kennedy Behrman, Alfredo Deza, Grig Gheorghiu
May 2025
Intermediate to advanced
506 pages
6h 56m
Chinese
O'Reilly Media, Inc.
Content preview from 用于 DevOps 的 Python

第 15 章 数据工程 数据工程

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见:translation-feedback@oreilly.com

数据科学可能是 21 世纪最性感的工作,但该领域正在迅速演变成不同的职称。数据科学家对一系列任务的描述过于粗糙。 到 2020 年,数据工程师和机器学习工程师将成为薪酬相同或更高的两个职位。

更令人惊讶的是,支持一名传统的数据科学家需要大量的数据工程师。 一个数据科学家需要三到五个数据工程师。

到底发生了什么? 让我们从另一个角度来看。假设我们是在为报纸撰写标题,想要写一些吸引眼球的内容。 我们可以说,"CEO是富人最性感的工作"。 CEO 很少,就像 NBA 球星很少,就像谋生的职业演员很少。 每一位 CEO,又有多少人在为他的成功而努力呢?最后这句话没有内容,没有意义,就像 "水是湿的"。

这句话并不是说你不能以数据科学家的身份谋生,而是对这句话背后的逻辑进行批判。 数据方面的技能需求巨大,从 DevOps 到机器学习,再到交流,不一而足。 数据科学家这个词很模糊。 它是一种工作还是一种行为? 在某种程度上,它很像 DevOps 这个词。 DevOps 是一份工作,还是一种行为?

从职位发布数据和薪资数据来看,就业市场似乎对数据工程和机器学习工程方面的实际职位有着明显的需求。 这是因为这些职位执行的是可识别的任务。 数据工程师的任务可能是在 Cloud 中创建一个管道,收集批量和流式数据,然后创建 API 来访问这些数据并安排这些工作。 这项工作并不简单。 不成功便成仁。

同样,机器学习工程师要构建机器学习模型,并以可维护的方式进行部署。 这项工作也不轻松。 虽然工程师可以做数据工程或机器学习工程,但仍然可以表现出归属于数据科学和 DevOps 的行为。如今是从事数据工作的激动人心的时刻,因为有很多机会可以建立复杂而强大的数据管道,并将其输入其他复杂而强大的预测系统。 有一种说法是 "富贵险中求"。 同样,对于数据,你永远不可能拥有太多 DevOps 或数据科学技能。 让我们深入探讨一些具有 DevOps 味道的数据工程想法。

小数据

工具包是一个令人兴奋的概念。 如果你请水管工上门服务,他们随身携带的工具可以帮助他们比你更有效地完成任务。 如果您请木匠来家里做东西,他们也会有一套独特的工具,帮助他们在您所能花费的时间的一小部分内完成任务。 工具对于专业人士来说必不可少,DevOps 也不例外。

本节将概述数据工程工具。 这些工具包括读取和写入文件、使用pickle, 使用JSON, 以及写入和读取YAML 文件等小型数据任务。 要成为能够处理任何任务并将其转化为脚本的自动化人员,掌握这些格式至关重要。 本章后半部分还将介绍用于大数据任务的工具。 本章讨论的工具与用于小型数据的工具截然不同。

什么是大数据,什么是小数据? 一个简单的区分方法就是笔记本电脑测试。 它能在你的笔记本电脑上运行吗? 如果不能,那么它就是大数据。 Pandas 就是一个很好的例子。 Pandas 需要的内存是数据集的 5 到 10 倍。 如果您有一个 2GB 的文件并使用 Pandas,那么您的笔记本电脑很可能无法运行。

处理小数据文件

如果说 Python 有什么决定性特征的话,那就是对语言效率的不懈追求。 一个典型的 Python 程序员希望写出足够的代码来完成任务,但又希望在代码变得不可读或简洁时停止。 此外,一个典型的 Python 程序员也不想编写模板代码。 这种环境导致了有用模式的不断发展。

主动模式的一个例子是使用 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

AirBnbBlueOriginElectronic ArtsHomeDepotNasdaqRakutenTata Consultancy Services

QuotationMarkO’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.
Julian F.
Head of Cybersecurity
QuotationMarkI wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.
Addison B.
Field Engineer
QuotationMarkI’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.
Amir M.
Data Platform Tech Lead
QuotationMarkI'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.
Mark W.
Embedded Software Engineer

You might also like

《Python 数据分析》第三版

《Python 数据分析》第三版

Wes McKinney
ppk on JavaScript

ppk on JavaScript

Peter-Paul Koch

Publisher Resources

ISBN: 9798341657380