book

构建基于机器学习的应用程序

by Emmanuel Ameisen

May 2025

Beginner to intermediate

260 pages

2h 58m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

使用机器学习应用程序的目标使用 ML 构建实际应用其他资源实用 ML本书内容先决条件我们的案例研究ML 辅助写作ML 流程本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
估计可能出现的情况机型数据构建多语言编辑器尝试用 ML 实现一切：端到端框架最简单的方法作为算法中间地带：总结经验莫妮卡-罗加蒂：如何选择 ML 项目并确定其优先顺序结论
衡量成功业务绩效模型性能保鲜和配送转变速度估算范围和挑战利用领域专长站在巨人的肩膀上多语言编辑器规划编辑的初步计划始终从简单模型开始要想定期取得进步：从简单开始从简单的管道开始多语言编辑器管道结论
最简单的脚手架多语言编辑器原型解析和清理数据文本标记化生成功能测试工作流程用户体验建模结果多语言编辑器原型评估模型用户体验结论
迭代数据集数据科学探索第一个数据集提高效率，从小事做起见解与产品数据质量评分标准查找数据趋势的标签统计摘要高效探索和标签成为算法数据趋势让数据为功能和模型提供依据从模式中构建功能多语言编辑器功能罗伯特-芒罗：如何查找、标记和利用数据？结论
最简单合适的模式简单模型从模式到模型分割数据集ML 编辑器数据分割评委表现评估您的模型：超越准确性数据与预测对比混淆矩阵ROC 曲线校准曲线误差降维Top-k 方法其他型号评估特征重要性直接来自分类器黑盒子讲解器结论
软件最佳实践特定于 ML 的最佳实践调试布线：可视化和测试从一个例子开始测试您的 ML 代码调试培训：让您的模型学会学习任务难度优化问题调试通用化：让你的模型有用数据泄漏过度拟合考虑手头的任务结论

从模型中提取建议没有模型，我们能做什么？提取全局特征重要性使用模型得分提取本地特征的重要性机型比较版本 1：成绩单版本 2：更强大，更模糊第 3 版：可以理解的建议生成编辑建议结论
数据问题数据所有权数据偏差系统偏差建模问题反馈回路包容性模型性能考虑背景对手滥用问题和双重用途克里斯-哈兰德航运实验结论
服务器端部署流媒体应用程序或应用程序接口批次预测客户端部署在设备上浏览器端联合学习：混合方法结论
围绕故障开展工程设计输入和输出检查模型故障回退性能工程师扩展至多个用户模型和数据生命周期管理数据处理和 DAG征求反馈意见克里斯-穆迪增强数据科学家部署模型的能力结论
监测拯救生命监测以告知刷新率监测以发现滥用选择监控内容性能指标业务指标针对 ML 的 CI/CDA/B 测试和实验其他方法结论

Content preview from 构建基于机器学习的应用程序

第 6 章调试 ML 问题调试 ML 问题

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

在上一章中，我们对第一个模型进行了训练和评估。

要使管道达到令人满意的性能水平非常困难，需要多次迭代。本章的目标就是指导你完成这样一个迭代周期。在本章中，我将介绍调试建模管道的工具，以及编写测试的方法，以确保在我们开始更改管道后，它们仍能正常工作。

软件最佳实践鼓励从业人员定期测试、验证和检查他们的代码，尤其是安全或输入解析等敏感步骤。这一点对于人工智能也不例外，因为模型中的错误可能比传统软件中的错误更难发现。

我们将介绍一些小窍门，帮助您确保管道的稳健性，并确保您可以在不导致整个系统瘫痪的情况下进行尝试，但首先让我们了解一下软件的最佳实践！

软件最佳实践

对于大多数 ML 项目而言，您将多次重复构建模型、分析其不足之处并加以解决的过程。您还可能不止一次地更改基础架构的每个部分，因此找到提高迭代速度的方法至关重要。

ML 就像其他软件项目一样，您应该遵循久经考验的软件最佳实践。它们中的大多数都可以不加修改地应用于 ML 项目，例如只构建所需的内容，这通常被称为 "保持简单（Keep It Stupid Simple，KISS）"原则。

ML 项目具有迭代性，在数据清理和特征生成算法以及模型选择方面会经历许多不同的迭代。即使遵循了这些最佳实践，仍有两个方面经常会降低迭代速度：调试和测试。加快调试和测试编写速度对任何项目都会产生重大影响，但对 ML 项目来说更为重要，因为模型的随机性往往会将一个简单的错误变成长达数天的调查。

许多资源可以帮助您学习如何调试一般程序，例如芝加哥大学的简明调试指南。如果您和大多数 ML 实践者一样，选择的语言是 Python，我建议您查阅 Python 标准库调试器pdb 的文档。

然而，与大多数软件相比，ML 代码的执行往往看似正确，却会产生完全荒谬的结果。这意味着，虽然这些工具和技巧适用于大多数 ML 代码，但它们不足以诊断常见问题。我在图 6-1 中对此进行了说明：在大多数软件应用程序中，强大的测试覆盖率可以让我们对应用程序的良好运行充满信心，而 ML 管道可以通过许多测试，但仍然会给出完全不正确的结果。ML 程序不仅要运行，还应该产生准确的预测输出。