book

构建基于机器学习的应用程序

by Emmanuel Ameisen

May 2025

Beginner to intermediate

260 pages

2h 58m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

使用机器学习应用程序的目标使用 ML 构建实际应用其他资源实用 ML本书内容先决条件我们的案例研究ML 辅助写作ML 流程本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
估计可能出现的情况机型数据构建多语言编辑器尝试用 ML 实现一切：端到端框架最简单的方法作为算法中间地带：总结经验莫妮卡-罗加蒂：如何选择 ML 项目并确定其优先顺序结论
衡量成功业务绩效模型性能保鲜和配送转变速度估算范围和挑战利用领域专长站在巨人的肩膀上多语言编辑器规划编辑的初步计划始终从简单模型开始要想定期取得进步：从简单开始从简单的管道开始多语言编辑器管道结论
最简单的脚手架多语言编辑器原型解析和清理数据文本标记化生成功能测试工作流程用户体验建模结果多语言编辑器原型评估模型用户体验结论
迭代数据集数据科学探索第一个数据集提高效率，从小事做起见解与产品数据质量评分标准查找数据趋势的标签统计摘要高效探索和标签成为算法数据趋势让数据为功能和模型提供依据从模式中构建功能多语言编辑器功能罗伯特-芒罗：如何查找、标记和利用数据？结论
最简单合适的模式简单模型从模式到模型分割数据集ML 编辑器数据分割评委表现评估您的模型：超越准确性数据与预测对比混淆矩阵ROC 曲线校准曲线误差降维Top-k 方法其他型号评估特征重要性直接来自分类器黑盒子讲解器结论
软件最佳实践特定于 ML 的最佳实践调试布线：可视化和测试从一个例子开始测试您的 ML 代码调试培训：让您的模型学会学习任务难度优化问题调试通用化：让你的模型有用数据泄漏过度拟合考虑手头的任务结论

从模型中提取建议没有模型，我们能做什么？提取全局特征重要性使用模型得分提取本地特征的重要性机型比较版本 1：成绩单版本 2：更强大，更模糊第 3 版：可以理解的建议生成编辑建议结论
数据问题数据所有权数据偏差系统偏差建模问题反馈回路包容性模型性能考虑背景对手滥用问题和双重用途克里斯-哈兰德航运实验结论
服务器端部署流媒体应用程序或应用程序接口批次预测客户端部署在设备上浏览器端联合学习：混合方法结论
围绕故障开展工程设计输入和输出检查模型故障回退性能工程师扩展至多个用户模型和数据生命周期管理数据处理和 DAG征求反馈意见克里斯-穆迪增强数据科学家部署模型的能力结论
监测拯救生命监测以告知刷新率监测以发现滥用选择监控内容性能指标业务指标针对 ML 的 CI/CDA/B 测试和实验其他方法结论

Content preview from 构建基于机器学习的应用程序

第 9 章选择部署选项选择部署选项

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

前几章介绍了从产品构思到 ML 实现的过程，以及在准备部署之前迭代此应用程序的方法。

本章将介绍不同的部署方案以及每种方案之间的权衡。不同的部署方法适合不同的需求。在考虑选择哪一种时，你需要考虑多种因素，如延迟、硬件和网络要求，以及隐私、成本和复杂性等问题。

部署模型的目的是让用户与之交互。我们将介绍实现这一目标的常用方法，以及在部署模型时决定不同方法的技巧。

我们将从部署模型和启动网络服务器提供预测服务的最简单方法开始。

服务器端部署

服务器端部署包括设置一个网络服务器，该服务器可以接受客户端的请求，通过推理管道运行请求并返回结果。这种解决方案符合网络开发模式，因为它将模型视为应用程序中的另一个端点。用户向这个端点发送请求，并期待结果。

服务器端模型有两种常见的工作负载：流式和批处理。流式工作流在收到请求时立即进行处理。批处理工作流的运行频率较低，会一次性处理大量请求。我们先来看看流式工作流。

流媒体应用程序或应用程序接口

流方法将模型视为用户可以发送请求的端点。在这种情况下，用户可以是应用程序的终端用户，也可以是依赖于模型预测的内部服务。例如，预测网站流量的模型可用于内部服务，该内部服务负责调整服务器数量，以满足预测的用户量。

在流应用程序中，请求的代码路径会经过一系列步骤，这些步骤与我们在"从简单管道开始 "中介绍的推理管道相同。作为提示，这些步骤是

验证请求。验证传递的参数值，并检查用户是否拥有运行该模型的正确权限。
收集其他数据。查询其他数据源，以获取我们可能需要的其他数据，例如与用户相关的信息。
预处理数据。
运行模型。
对结果进行后处理。验证结果是否在可接受范围内。添加上下文，使用户能够理解，例如解释模型的置信度。
返回结果。

图 9-1 展示了这一系列步骤。

端点方法实施迅速，但需要基础设施与当前用户数量成线性扩展，因为每个用户都会导致单独的推理调用。如果流量的增加超出了服务器处理请求的能力，请求就会开始延迟甚至失败。因此，要使这种管道适应流量模式，就必须能够轻松启动和关闭新的服务器，这就需要一定程度的自动化。

不过，对于像 ML 编辑器这样一次只有少数用户访问的简单演示，流式方法通常是个不错的选择。为了部署 ML Editor，我们使用了Flask 等轻量级 Python 网络应用程序，只需几行代码，就能轻松设置 API，为模型提供服务。

您可以在本书的GitHub 代码库中找到原型的部署代码，但我在这里将给出一个高层次的概述。Flask 应用程序由两部分组成，一个是接收请求并将其发送到模型中使用 Flask 进行处理的 API，另一个是用 HTML 构建的简单网站，供用户输入文本并显示结果。定义这样一个应用程序接口不需要太多代码。在这里，您可以看到两个函数，它们处理了 ML 编辑器 v3 的大部分工作：

from flask import Flask, render_template, request

@app.route("/v3", methods=["POST", "GET"])
def v3 ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

What Employees Want Most in Uncertain Times

Publisher Resources

ISBN: 9798341658998Supplemental Content

构建基于机器学习的应用程序

by Emmanuel Ameisen

第 9 章选择部署选项选择部署选项

服务器端部署

流媒体应用程序或应用程序接口

图 9-1. 流 API 工作流程

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

What Employees Want Most in Uncertain Times

What Successful Project Managers Do

How I Built a Personal Board of Directors With GenAI

How to Become a Game-Changing Leader

Publisher Resources

第 9 章 选择部署选项 选择部署选项

服务器端部署

流媒体应用程序或应用程序接口

图 9-1. 流 API 工作流程

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

What Employees Want Most in Uncertain Times

What Successful Project Managers Do

How I Built a Personal Board of Directors With GenAI

How to Become a Game-Changing Leader

Publisher Resources

第 9 章选择部署选项选择部署选项

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.