book

在企业中实施 MLOps

Name: 在企业中实施 MLOps
ISBN: 9798341657106

by Yaron Haviv, Noah Gift

May 2025

Intermediate to advanced

380 pages

4h 56m

Chinese

O'Reilly Media, Inc.

Read now

Unlock full access

序言
本书适合人群本书导航本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢亚伦诺亚
1.MLOps：它是什么，我们为什么需要它？
什么是 MLOps？企业中的 MLOps了解企业解决方案的投资回报率了解企业的风险和不确定性MLOps 与 DevOps 的比较什么不是 MLOps？MLOps 的主流定义什么是 ML 工程？MLOps 和企业激励措施云中的 MLOps关键云开发环境云计算的主要参与者MLOps 内部部署混合环境中的 MLOps企业 MLOps 战略结论批判性思维讨论问题练习
2.MLOps 的各个阶段
入门选择算法设计您的管道数据收集和准备数据存储和输入数据探索与准备数据标签特色商店模型开发与培训编写和维护生产型 ML 代码跟踪和比较实验结果分布式训练和超参数优化建立和测试生产模型部署（和在线 ML 服务）从模型端点到应用管道在线数据准备持续模型和数据监测监测数据和概念漂移监测模型性能和准确性预训练模型的策略构建端到端 "拥抱脸 "应用程序流程自动化（ML 的 CI/CD）结论批判性思维讨论问题练习
3.开始第一个 MLOps 项目
确定业务用例和目标寻找人工智能用例确定目标和评估投资回报率如何打造成功的 ML 项目批准项目并制作原型项目规模化和产品化项目结构和生命周期从 A 到 Z 的 ML 项目实例探索性数据分析数据和模型管道开发应用管道开发项目规模化和产品化CI/CD 和持续运营结论批判性思维讨论问题练习
4.使用数据和特征库
数据版本化和沿袭如何使用常见的 ML 数据版本管理工具大规模数据准备和分析结构化和非结构化数据转换分布式数据处理架构交互式数据处理批量数据处理流处理流处理框架特色商店功能存储架构和使用输入和转换服务功能存储特征检索（用于培训和服务）功能商店解决方案和使用示例使用 Feast 功能商店使用 MLRun 功能存储结论批判性思维讨论问题练习
5.开发生产模型
AutoML运行、跟踪和比较 ML 作业实验跟踪用模型工件保存重要元数据比较 ML 工作：以 MLflow 为例超参数调整自动记录MLOps 自动化：AutoMLOps示例：使用 Azure Databricks 运行和跟踪 ML 作业处理大规模培训构建和运行多阶段工作流程高效管理计算资源结论批判性思维讨论问题练习
6.模型和人工智能应用的部署
模型登记和管理解决方案示例SageMaker 示例MLflow 示例MLRun 示例服务模式亚马逊 SageMaker塞尔登核心MLRun 服务高级服务和应用管道实施可扩展的应用程序管道模型路由和集合模型优化和 ONNX数据和模型监测综合模型监测解决方案独立模型监测解决方案模型再训练何时重新训练模型数据再培训策略MLOps 管道中的模型再训练部署战略衡量业务影响结论批判性思维讨论问题练习
7.从 A 到 Z 建立一个生产级 MLOps 项目
探索性数据分析交互式数据准备准备信贷交易数据集准备用户事件（活动）数据集提取标签和训练模型使用特征库进行数据输入和准备建立信用交易数据管道（功能集）构建用户事件数据管道（功能集）构建目标标签数据管道（特征集）将数据输入特征库模型训练和验证流程创建和评估特征向量构建并运行自动培训和验证管道实时应用管道定义自定义模型服务类利用增益和集合构建应用管道本地测试应用程序管道部署和测试实时应用程序管道模型监测CI/CD 和持续运营结论批判性思维讨论问题练习
8.构建可扩展的 Deep Learning 和大型语言模型项目
分布式深度学习HorovodRayDL 中的数据收集、标记和监测应避免的数据标签陷阱数据标签最佳做法数据标签解决方案将基础模型用作标签使用非结构化数据监控 DL 模型构建与购买 Deep Learning 模型基础模型、生成式人工智能、LLMs生成式人工智能的风险与挑战高效使用和定制 LLMs 的 MLOps 管道应用实例：微调 LLM 模型结论批判性思维讨论问题练习
9.高级数据类型的解决方案
利用时间序列构建 ML 问题框架使用 AWS 导航时间序列分析使用 DeepAR+ 深入研究时间序列使用 GCP BigQuery 和 SQL 进行时间序列分析MLOps NLP 问题的构建与购买对比建造与购买：抱脸法使用 AWS 探索自然语言处理用 OpenAI 探索 NLP视频分析、图像分类和生成式人工智能使用 CreateML 的图像分类技术复合人工智能使用无服务器入门复合人工智能无服务器复合人工智能使用案例结论批判性思维讨论问题练习

10.使用 Rust 实现 MLOps
为 MLOps 引入 Rust 的理由使用 Rust、GitHub Copilot 和代码空间提升水平最初的命令行入门 Rust for MLOps使用 PyTorch 和 Rust 的抱抱脸使用 Rust 为 MLOps 打造工具构建容器化的 Rust 命令行工具GPU PyTorch 工作流程使用 TensorFlow Rust用 Rust 进行 k 均值聚类关于 Rust 的最后说明围脖衬垫Rust-new-project-template结论批判性思维讨论问题练习
A.工作面试问题
B.企业 MLOps 访谈
索引
关于作者

Content preview from 在企业中实施 MLOps

第 8 章构建可扩展的深度学习和大型语言模型项目构建可扩展的 Deep Learning 和大型语言模型项目

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

深度学习（Deep Learning，DL）是机器学习的一个子领域，其灵感来源于人脑的结构和功能。在深度学习中，由相互连接的人工神经元层组成的神经网络分层处理数据，可以捕捉数据中的复杂模式。每一层都对输入数据进行学习和转换，逐步捕捉更高层次的特征和抽象。

DL 训练过程包括向神经网络输入标注数据，并反复调整神经元的权重和偏置。它可以减少对人工特征工程的依赖，并在计算机视觉、自然语言处理、语音识别和强化学习等多个领域取得令人瞩目的成果。

通过变压器、生成式人工智能、ChatGPT 等创新技术，DL 技术正在改变世界。此外，更大、更智能的基础模型可以执行类似人类的任务，生成并理解内容等。

工作和开发 Deep Learning 模型会带来额外的操作复杂性和扩展挑战。这正是 MLOps 的用武之地，它可以帮助简化和抽象复杂性，并将开发和使用复杂模型的过程操作化。

深度学习框架有多种。主要有

TensorFlow: TensorFlow 由谷歌开发，是使用最广泛的深度学习框架之一。TensorFlow 是开源的，并为构建和部署深度学习模型提供了全面的工具、库和高级 API（如 Keras）生态系统。
PyTorch: PyTorch 由 Meta 的人工智能研究实验室开发，是一个开源的深度学习库，由于它提供了一个灵活、动态的计算图，可以轻松构建和训练深度学习模型，因此大受欢迎。
Keras: Keras 最初是一个独立的库，现在已成为 TensorFlow 官方 API 的一部分。Keras 是开源的，为构建和训练深度学习模型提供了更简单的高级 API。
咖啡厅: Caffe 是伯克利人工智能研究所（BAIR）开发的开源深度学习框架，可以构建、训练和部署深度神经网络。Caffe 专注于计算机视觉任务，以速度和效率著称。

这些解决方案提供了各种特性和功能，包括 GPU 加速、分布式训练以及预建模型和架构，使开发和训练复杂的深度学习模型变得更加容易。

分布式深度学习

随着模型规模的扩大和训练数据量的增加，越来越需要在多台计算机上加速和分配训练过程。分布式训练过程将任务分解成更小的任务或数据元素，并将结果组合成一个更大的模型。两种广泛使用的分布式（并行）训练方法是

数据并行: 将模型复制到多个系统，每个副本都在一个数据子集上进行训练。然后对每个副本上计算出的梯度进行平均，以更新共享模型参数。当模型参数比数据大小更重要时，数据并行就很有效。
模型并行: 将模型的不同部分分配给多个系统或 GPU 设备。每个系统或设备负责计算其分配的模型部分的前向和后向传递。这种方法适用于模型过大，无法容纳在一个系统或 GPU 内存中的情况。

图 8-1展示了数据并行和模型并行的区别。

在分布式训练中，大量数据在系统间交换，需要快速网络和高性能消息传递协议（如消息传递接口，或 MPI）。

TensorFlow 和 PyTorch 提供了用于分发训练的内置库和解决方案。这些库可以部署在 Kubernetes ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9798341657106

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

在企业中实施 MLOps

by Yaron Haviv, Noah Gift

第 8 章构建可扩展的深度学习和大型语言模型项目构建可扩展的 Deep Learning 和大型语言模型项目

分布式深度学习

图 8-1. 数据和模型并行

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.