第8章 最佳实践
前几章的多个项目涵盖了机器学习的重要概念、技术和广泛使用的算法,做完这些项目之后,我们对机器学习生态系统有了全面的认识,就如何用机器学习算法和Python解决实际问题,积累了经验,打好了底子。然而,我们在实际工作中,只要从头开始做项目,就会遇到各种各样的问题。本章旨在以机器学习方案整个工作流的最佳实践武装我们。我们掌握了这些知识,自己动手做项目就没有那么困难了。
在本章中,我们将深入讲解以下主题。
- 机器学习方案工作流。
- 数据准备阶段的任务。
- 训练集生成阶段的任务。
- 算法训练、评估和选择阶段的任务。
- 系统部署和监控阶段的任务。
- 数据准备阶段的最佳实践。
- 训练集生成阶段的最佳实践。
- 算法训练、评估和选择阶段的最佳实践。
- 系统部署和监控阶段的最佳实践。
8.1 机器学习工作流
通常,解决一个机器学习问题所要完成的任务可归纳为以下4个方面:
- 数据准备;
- 训练集生成;
- 算法训练、评估和选择;
- 系统部署和监控。
从数据源到最终的机器学习系统,一个机器学习方案基本上遵从图8-1所示的流程。
图8-1 机器学习方案流程图
后续几节,我们将学习以上4个阶段每个阶段的典型任务、常见挑战和最佳实践。
8.2 数据准备阶段的最佳实践
显然,无数据何以谈构建机器学习系统。数据应当是我们首先要关注的。
8.2.1 最佳实践1——理解透彻项目的目标
在采集数据之前,我们应该透彻理解项目的目标,也就是业务问题。因为它将指导我们选取数据源作研究。只有具备足够的领域知识和专家意见,才能选对数据源。例如,在第7章,我们的目标是预测DJIA指数未来的价格,因此我们采集它在过去的表现,而不是采集欧洲股票市场的历史数据。第5章和第6章的业务问题是,最大化广告的命中率,命中率以点击率为准,因此,我们采集谁点击或没有点击哪个页面哪个广告这样的点击数据,而不只是采集网页展示了什么广告这样的数据。 ...
Get Python机器学习案例精解 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.