第8章 最佳实践

前几章的多个项目涵盖了机器学习的重要概念、技术和广泛使用的算法,做完这些项目之后,我们对机器学习生态系统有了全面的认识,就如何用机器学习算法和Python解决实际问题,积累了经验,打好了底子。然而,我们在实际工作中,只要从头开始做项目,就会遇到各种各样的问题。本章旨在以机器学习方案整个工作流的最佳实践武装我们。我们掌握了这些知识,自己动手做项目就没有那么困难了。

在本章中,我们将深入讲解以下主题。

  • 机器学习方案工作流。
  • 数据准备阶段的任务。
  • 训练集生成阶段的任务。
  • 算法训练、评估和选择阶段的任务。
  • 系统部署和监控阶段的任务。
  • 数据准备阶段的最佳实践。
  • 训练集生成阶段的最佳实践。
  • 算法训练、评估和选择阶段的最佳实践。
  • 系统部署和监控阶段的最佳实践。

通常,解决一个机器学习问题所要完成的任务可归纳为以下4个方面:

  • 数据准备;
  • 训练集生成;
  • 算法训练、评估和选择;
  • 系统部署和监控。

从数据源到最终的机器学习系统,一个机器学习方案基本上遵从图8-1所示的流程。

图片 1

图8-1 机器学习方案流程图

后续几节,我们将学习以上4个阶段每个阶段的典型任务、常见挑战和最佳实践。

显然,无数据何以谈构建机器学习系统。数据应当是我们首先要关注的。

在采集数据之前,我们应该透彻理解项目的目标,也就是业务问题。因为它将指导我们选取数据源作研究。只有具备足够的领域知识和专家意见,才能选对数据源。例如,在第7章,我们的目标是预测DJIA指数未来的价格,因此我们采集它在过去的表现,而不是采集欧洲股票市场的历史数据。第5章和第6章的业务问题是,最大化广告的命中率,命中率以点击率为准,因此,我们采集谁点击或没有点击哪个页面哪个广告这样的点击数据,而不只是采集网页展示了什么广告这样的数据。 ...

Get Python机器学习案例精解 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.