book

构建基于机器学习的应用程序

by Emmanuel Ameisen

May 2025

Beginner to intermediate

260 pages

2h 58m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

使用机器学习应用程序的目标使用 ML 构建实际应用其他资源实用 ML本书内容先决条件我们的案例研究ML 辅助写作ML 流程本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
估计可能出现的情况机型数据构建多语言编辑器尝试用 ML 实现一切：端到端框架最简单的方法作为算法中间地带：总结经验莫妮卡-罗加蒂：如何选择 ML 项目并确定其优先顺序结论
衡量成功业务绩效模型性能保鲜和配送转变速度估算范围和挑战利用领域专长站在巨人的肩膀上多语言编辑器规划编辑的初步计划始终从简单模型开始要想定期取得进步：从简单开始从简单的管道开始多语言编辑器管道结论
最简单的脚手架多语言编辑器原型解析和清理数据文本标记化生成功能测试工作流程用户体验建模结果多语言编辑器原型评估模型用户体验结论
迭代数据集数据科学探索第一个数据集提高效率，从小事做起见解与产品数据质量评分标准查找数据趋势的标签统计摘要高效探索和标签成为算法数据趋势让数据为功能和模型提供依据从模式中构建功能多语言编辑器功能罗伯特-芒罗：如何查找、标记和利用数据？结论
最简单合适的模式简单模型从模式到模型分割数据集ML 编辑器数据分割评委表现评估您的模型：超越准确性数据与预测对比混淆矩阵ROC 曲线校准曲线误差降维Top-k 方法其他型号评估特征重要性直接来自分类器黑盒子讲解器结论
软件最佳实践特定于 ML 的最佳实践调试布线：可视化和测试从一个例子开始测试您的 ML 代码调试培训：让您的模型学会学习任务难度优化问题调试通用化：让你的模型有用数据泄漏过度拟合考虑手头的任务结论

从模型中提取建议没有模型，我们能做什么？提取全局特征重要性使用模型得分提取本地特征的重要性机型比较版本 1：成绩单版本 2：更强大，更模糊第 3 版：可以理解的建议生成编辑建议结论
数据问题数据所有权数据偏差系统偏差建模问题反馈回路包容性模型性能考虑背景对手滥用问题和双重用途克里斯-哈兰德航运实验结论
服务器端部署流媒体应用程序或应用程序接口批次预测客户端部署在设备上浏览器端联合学习：混合方法结论
围绕故障开展工程设计输入和输出检查模型故障回退性能工程师扩展至多个用户模型和数据生命周期管理数据处理和 DAG征求反馈意见克里斯-穆迪增强数据科学家部署模型的能力结论
监测拯救生命监测以告知刷新率监测以发现滥用选择监控内容性能指标业务指标针对 ML 的 CI/CDA/B 测试和实验其他方法结论

Content preview from 构建基于机器学习的应用程序

第 5 章. 训练和评估模型

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在前面的章节中，我们已经介绍了如何确定要解决的问题、制定解决计划、构建简单的管道、探索数据集以及生成初始特征集。通过这些步骤，我们收集到了足够的信息，可以开始训练一个适当的模型。这里的 "适当的模型 "指的是一个非常适合手头任务并且有很好表现机会的模型。

在本章中，我们将首先简要介绍选择模型时的一些注意事项。然后，我们将介绍分离数据的最佳实践，这将有助于在现实条件下评估模型。最后，我们将介绍分析建模结果和诊断错误的方法。

最简单合适的模式

现在，我们已经准备好训练一个模型，我们需要决定从哪个模型开始。尝试所有可能的模型，对它们进行基准测试，然后根据某些指标在保留的测试集上挑选出结果最好的模型，这可能很有诱惑力。

一般来说，这不是最好的方法。它不仅计算量大（有很多模型集，每个模型有很多参数，所以实际上你只能测试一个次优子集），而且还把模型当作预测黑盒子，完全忽视了ML 模型在学习方式上编码了对数据的隐含假设。

不同的模型会对数据做出不同的假设，因此适合不同的任务。此外，由于 ML 是一个迭代领域，您需要选择可以快速构建和评估的模型。

首先，让我们来定义如何识别简单的模型。然后，我们将举例说明数据模式和利用这些模式的适当模型。

简单模型

简单的模型应该是快速实现、易于理解和可部署的：快速实现是因为您的第一个模型很可能不会是最后一个；易于理解是因为它能让您更轻松地进行调试；可部署是因为这是由 ML 驱动的应用程序的基本要求。让我们先来探讨一下我所说的快速实施是什么意思。

快速实施

选择对您来说易于实施的模型。一般来说，这意味着要选择一个广为人知的模型，该模型有多个相关教程，而且人们能够帮助您（尤其是当您使用我们的 ML 编辑器提出明确的问题时！）。对于一个新的 ML 驱动型应用程序来说，在处理数据和部署可靠的结果方面，您将面临足够多的挑战，因此最初应尽力避免所有令人头疼的模型问题。

如果可能的话，从使用 Keras 或 scikit-learn 等流行库中的模型开始，在进入没有文档且在过去九个月内没有更新过的实验性 GitHub 仓库之前，请暂缓行动。

模型实施后，您需要检查并了解它是如何利用数据集的。为此，您需要一个可以理解的模型。

可以理解

模型的可解释性和可解释性描述了模型揭示导致其做出预测的原因（如给定的预测因子组合）的能力。可解释性在很多方面都很有用，比如验证我们的模型没有以不可取的方式出现偏差，或者向用户解释他们可以做些什么来改善预测结果。它还能让迭代和调试变得更加容易。

如果能提取出模型决策所依赖的特征，就能更清楚地了解哪些特征需要添加、调整或移除，或者哪个模型可以做出更好的选择。

遗憾的是，即使是简单的模型，模型的可解释性通常也很复杂，有时对于较大的模型更是难以解决。在"评估特征重要性 "一文中，我们将介绍应对这一挑战的方法，并帮助您确定模型的改进点。除其他外，我们还将使用黑盒子解释器，这种解释器试图提供对模型预测的解释，而不考虑其内部工作原理。

逻辑回归或决策树等较简单的模型往往更容易解释，因为它们提供了一些特征重要性的衡量标准，这也是它们通常是首先尝试的好模型的另一个原因。

可部署

提醒您，模型的最终目标是为使用它的人提供有价值的服务。这意味着，在考虑训练哪个模型时，您应该始终考虑是否能够部署该模型。

我们将在第四部分介绍部署问题，但您应该已经开始思考以下问题：

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

What Employees Want Most in Uncertain Times

Publisher Resources

ISBN: 9798341658998Supplemental Content

构建基于机器学习的应用程序

by Emmanuel Ameisen

第 5 章. 训练和评估模型

最简单合适的模式

简单模型

快速实施

可以理解

可部署

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

What Employees Want Most in Uncertain Times

What Successful Project Managers Do

How I Built a Personal Board of Directors With GenAI

How to Become a Game-Changing Leader

Publisher Resources

第 5 章. 训练和评估模型

最简单合适的模式

简单模型

快速实施

可以理解

可部署

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

What Employees Want Most in Uncertain Times

What Successful Project Managers Do

How I Built a Personal Board of Directors With GenAI

How to Become a Game-Changing Leader

Publisher Resources

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.