book

构建基于机器学习的应用程序

by Emmanuel Ameisen

May 2025

Beginner to intermediate

260 pages

2h 58m

Chinese

O'Reilly Media, Inc.

Book available

Read now

Unlock full access

使用机器学习应用程序的目标使用 ML 构建实际应用其他资源实用 ML本书内容先决条件我们的案例研究ML 辅助写作ML 流程本书使用的约定使用代码示例O'Reilly 在线学习如何联系我们致谢
估计可能出现的情况机型数据构建多语言编辑器尝试用 ML 实现一切：端到端框架最简单的方法作为算法中间地带：总结经验莫妮卡-罗加蒂：如何选择 ML 项目并确定其优先顺序结论
衡量成功业务绩效模型性能保鲜和配送转变速度估算范围和挑战利用领域专长站在巨人的肩膀上多语言编辑器规划编辑的初步计划始终从简单模型开始要想定期取得进步：从简单开始从简单的管道开始多语言编辑器管道结论
最简单的脚手架多语言编辑器原型解析和清理数据文本标记化生成功能测试工作流程用户体验建模结果多语言编辑器原型评估模型用户体验结论
迭代数据集数据科学探索第一个数据集提高效率，从小事做起见解与产品数据质量评分标准查找数据趋势的标签统计摘要高效探索和标签成为算法数据趋势让数据为功能和模型提供依据从模式中构建功能多语言编辑器功能罗伯特-芒罗：如何查找、标记和利用数据？结论
最简单合适的模式简单模型从模式到模型分割数据集ML 编辑器数据分割评委表现评估您的模型：超越准确性数据与预测对比混淆矩阵ROC 曲线校准曲线误差降维Top-k 方法其他型号评估特征重要性直接来自分类器黑盒子讲解器结论
软件最佳实践特定于 ML 的最佳实践调试布线：可视化和测试从一个例子开始测试您的 ML 代码调试培训：让您的模型学会学习任务难度优化问题调试通用化：让你的模型有用数据泄漏过度拟合考虑手头的任务结论

从模型中提取建议没有模型，我们能做什么？提取全局特征重要性使用模型得分提取本地特征的重要性机型比较版本 1：成绩单版本 2：更强大，更模糊第 3 版：可以理解的建议生成编辑建议结论
数据问题数据所有权数据偏差系统偏差建模问题反馈回路包容性模型性能考虑背景对手滥用问题和双重用途克里斯-哈兰德航运实验结论
服务器端部署流媒体应用程序或应用程序接口批次预测客户端部署在设备上浏览器端联合学习：混合方法结论
围绕故障开展工程设计输入和输出检查模型故障回退性能工程师扩展至多个用户模型和数据生命周期管理数据处理和 DAG征求反馈意见克里斯-穆迪增强数据科学家部署模型的能力结论
监测拯救生命监测以告知刷新率监测以发现滥用选择监控内容性能指标业务指标针对 ML 的 CI/CDA/B 测试和实验其他方法结论

Content preview from 构建基于机器学习的应用程序

第 7 章使用分类器编写建议使用分类器编写建议

本作品已使用人工智能进行翻译。欢迎您提供反馈和意见：translation-feedback@oreilly.com

取得 ML 进展的最佳方法是反复遵循图 7-1 所示的迭代循环，我们在第三部分的导言中已经看到了这一点。从建立建模假设开始，迭代建模流水线，并进行详细的错误分析，为下一个假设提供依据。

前几章介绍了这一循环的多个步骤。在第 5 章中，我们介绍了如何对模型进行训练和评分。在第 6 章中，我们分享了如何更快地构建模型和排除与 ML 相关的错误的建议。本章首先展示了使用训练有素的分类器为用户提供建议的方法，然后为 ML 编辑器选择了一个模型，最后将两者结合起来构建了一个可用的 ML 编辑器，从而结束了循环的迭代。

在"ML 编辑器规划 "中，我们概述了我们的 ML 编辑器计划，其中包括训练一个模型，将问题分为高分和低分两类，并使用这个训练好的模型指导用户写出更好的问题。让我们看看如何使用这样的模型为用户提供写作建议。

从模型中提取建议

ML 编辑器的目标是提供写作建议。将问题分为好坏是朝着这个方向迈出的第一步，因为它可以向用户显示问题的当前质量。我们希望在此基础上更进一步，通过向用户提供可操作的建议来帮助他们改进问题的表述。

本节将介绍提供此类建议的方法。我们将从简单的方法开始，这些方法依赖于综合特征度量，在推理时不需要使用模型。然后，我们将了解如何利用模型的得分及其对扰动的敏感性来生成更加个性化的推荐。你可以在本书 GitHub 站点上的生成推荐笔记本中找到本章展示的每种方法应用于 ML 编辑器的示例。

没有模型，我们能做什么？

通过 ML 循环的多次迭代，可以训练出性能良好的模型。每次迭代都有助于通过研究现有技术、迭代潜在数据集和检查模型结果来创建一组更好的特征。为了向用户提供建议，您可以利用这种特征迭代工作。这种方法并不一定要求对用户提交的每个问题都运行一个模型，而是侧重于提供一般性建议。

您可以直接使用这些特征，也可以使用训练有素的模型来帮助选择相关特征。

使用特征统计数据

预测特征一旦确定，就可以直接传达给用户，而无需使用模型。如果某个特征的平均值在每个类别中都有显著差异，就可以直接分享这一信息，帮助用户将他们的示例推向目标类别的方向。

我们很早就发现了 ML 编辑器的一个特点，那就是存在问号。对数据的检查表明，得分高的问题往往问号较少。为了利用这一信息生成推荐，我们可以编写一条规则，如果用户问题中的问号比例远远大于高分问题中的问号比例，就会向用户发出警告。

使用 pandas 只需几行代码就能实现每个标签平均特征值的可视化。

class_feature_values = feats_labels.groupby("label").mean()
class_feature_values = class_feature_values.round(3)
class_feature_values.transpose()

运行前面的代码会产生表 7-1 所示的结果。在这些结果中，我们可以看到，我们生成的许多特征值在高分和低分问题（此处标注为 "真 "和 "假"）上有明显不同。

表 7-1. 不同类别之间特征值的差异
标签	假的	正确

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Start your free trial

What Employees Want Most in Uncertain Times

Publisher Resources

ISBN: 9798341658998Supplemental Content

构建基于机器学习的应用程序

by Emmanuel Ameisen

第 7 章使用分类器编写建议使用分类器编写建议

图 7-1. ML 循环

从模型中提取建议

没有模型，我们能做什么？

使用特征统计数据

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

You might also like

What Employees Want Most in Uncertain Times

What Successful Project Managers Do

How I Built a Personal Board of Directors With GenAI

How to Become a Game-Changing Leader

Publisher Resources

第 7 章 使用分类器编写建议 使用分类器编写建议

图 7-1. ML 循环

从模型中提取建议

没有模型，我们能做什么？

使用特征统计数据

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,and much more.

You might also like

What Employees Want Most in Uncertain Times

What Successful Project Managers Do

How I Built a Personal Board of Directors With GenAI

How to Become a Game-Changing Leader

Publisher Resources

第 7 章使用分类器编写建议使用分类器编写建议

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.