book

构建基于机器学习的应用程序

by Emmanuel Ameisen

May 2025

Beginner to intermediate

260 pages

2h 58m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

使用机器学习应用程序的目标使用 ML 构建实际应用其他资源实用 ML本书内容先决条件我们的案例研究ML 辅助写作ML 流程本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
估计可能出现的情况机型数据构建多语言编辑器尝试用 ML 实现一切：端到端框架最简单的方法作为算法中间地带：总结经验莫妮卡-罗加蒂：如何选择 ML 项目并确定其优先顺序结论
衡量成功业务绩效模型性能保鲜和配送转变速度估算范围和挑战利用领域专长站在巨人的肩膀上多语言编辑器规划编辑的初步计划始终从简单模型开始要想定期取得进步：从简单开始从简单的管道开始多语言编辑器管道结论
最简单的脚手架多语言编辑器原型解析和清理数据文本标记化生成功能测试工作流程用户体验建模结果多语言编辑器原型评估模型用户体验结论
迭代数据集数据科学探索第一个数据集提高效率，从小事做起见解与产品数据质量评分标准查找数据趋势的标签统计摘要高效探索和标签成为算法数据趋势让数据为功能和模型提供依据从模式中构建功能多语言编辑器功能罗伯特-芒罗：如何查找、标记和利用数据？结论
最简单合适的模式简单模型从模式到模型分割数据集ML 编辑器数据分割评委表现评估您的模型：超越准确性数据与预测对比混淆矩阵ROC 曲线校准曲线误差降维Top-k 方法其他型号评估特征重要性直接来自分类器黑盒子讲解器结论
软件最佳实践特定于 ML 的最佳实践调试布线：可视化和测试从一个例子开始测试您的 ML 代码调试培训：让您的模型学会学习任务难度优化问题调试通用化：让你的模型有用数据泄漏过度拟合考虑手头的任务结论

从模型中提取建议没有模型，我们能做什么？提取全局特征重要性使用模型得分提取本地特征的重要性机型比较版本 1：成绩单版本 2：更强大，更模糊第 3 版：可以理解的建议生成编辑建议结论
数据问题数据所有权数据偏差系统偏差建模问题反馈回路包容性模型性能考虑背景对手滥用问题和双重用途克里斯-哈兰德航运实验结论
服务器端部署流媒体应用程序或应用程序接口批次预测客户端部署在设备上浏览器端联合学习：混合方法结论
围绕故障开展工程设计输入和输出检查模型故障回退性能工程师扩展至多个用户模型和数据生命周期管理数据处理和 DAG征求反馈意见克里斯-穆迪增强数据科学家部署模型的能力结论
监测拯救生命监测以告知刷新率监测以发现滥用选择监控内容性能指标业务指标针对 ML 的 CI/CDA/B 测试和实验其他方法结论

Content preview from 构建基于机器学习的应用程序

第 1 章. 从产品目标到 ML 框架

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

ML 允许机器从数据中学习，并以概率方式行事，通过优化给定目标来解决问题。这与传统的编程方式截然不同，在传统编程方式中，程序员要一步一步地编写说明，描述如何解决问题。这使得 ML 特别适用于构建我们无法定义启发式解决方案的系统。

图 1-1描述了编写系统检测猫的两种方法。左边的程序由人工编写的程序组成。右边是一种 ML 方法，利用标有相应动物的猫狗照片数据集，让模型学习从图像到类别的映射。在 ML 方法中，没有关于如何实现结果的说明，只有一组示例输入和输出。

Comparing writing an algorithm to learning a model

人工智能功能强大，可以开发出全新的产品，但由于它基于模式识别，因此会带来一定程度的不确定性。重要的是要确定产品的哪些部分将受益于 ML，以及如何以一种能将用户体验不佳的风险降至最低的方式制定学习目标。

例如，人类几乎不可能根据像素值编写一步一步的指令来自动检测图像中是哪种动物（尝试这样做也非常耗时）。然而，通过将数千张不同动物的图像输入卷积神经网络（CNN），我们可以建立一个模型，比人类更准确地完成这种分类。因此，使用 ML 处理这项任务非常有吸引力。

另一方面，自动计算税款的应用程序应依赖于政府提供的指南。正如你可能听说过的，报税表上出现错误通常是不受欢迎的。因此，使用 ML 自动生成报税表是一个值得怀疑的提议。

当你可以用一套易于管理的确定性规则来解决问题时，你永远不会想使用 ML。所谓 "可管理"，我指的是你可以自信地编写一套规则，而且维护起来不会太复杂。

因此，虽然 ML 开启了一个不同的应用世界，但重要的是要思考哪些任务可以并应该由 ML 来解决。在构建产品时，您应该从具体的业务问题出发，确定它是否需要人工智能，然后努力寻找能够让您尽可能快速迭代的人工智能方法。

我们将在本章介绍这一过程，首先介绍估算哪些任务可以用 ML 解决、哪些 ML 方法适合哪些产品目标以及如何处理数据要求的方法。我将通过我们在"我们的案例研究 "中提到的 ML 编辑器案例研究来说明这些方法：我们的案例研究：ML 辅助写作 "中提到的ML Editor 案例研究，以及对 Monica Rogati 的采访，来说明这些方法。

估计可能出现的情况

由于 ML 模型可以在无需人类逐步指导的情况下处理任务，这意味着它们能够完成一些比人类专家更好的任务（如从放射学图像中检测肿瘤或下围棋），以及一些人类完全无法完成的任务（如从数百万人的文章库中推荐文章或将说话者的声音变为别人的声音）。

人工智能直接从数据中学习的能力使其在广泛的应用中大有用武之地，但也使人类更难准确区分哪些问题可以用人工智能来解决。在研究论文或企业博客中发表的每一个成功结果，都有数百个听起来很合理的想法完全失败了。

虽然目前还没有预测 ML 成功的万无一失的方法，但有一些指导原则可以帮助您降低处理 ML 项目的相关风险。最重要的是，您应该始终以产品目标为出发点，然后再决定如何最好地解决这个问题。在这一阶段，无论是否需要人工智能，都要对任何方法持开放态度。在考虑 ML 方法时，一定要根据这些方法对产品的适用性来评估，而不是简单地根据这些方法在真空中的有趣程度来评估。 ...