第2章 学习过程

本书的第1章对机器学习进行了综述,介绍了机器学习相关领域的数学概念、发展历程和研究范围。

由于本书旨在为读者提供正确且实用的学习方法,接下来的内容将给出机器学习时的一般思维过程。这些概念将贯穿整个章节,帮助读者构建机器学习领域中最佳实践的一般架构。

本章的主要内容包括以下几点。

  • 理解问题和定义。
  • 数据集检索、预处理和特征工程。
  • 模型定义、训练与评价。
  • 理解结果和量化。

每个机器学习的问题都有其特性,尽管如此,随着技术的发展,在机器学习过程中也形成了必要的一般性步骤及与之对应的最优解决方法。接下来本章将总结这些步骤,并给出实例中的参考代码。

在解决机器学习问题时,提前对数据和工作量进行分析和评估是十分必要的,与接下来的步骤相比,初始步骤并没有明确正式的规定,因而执行起来可以更加灵活。

由机器学习的定义可知,其最终目标是使得计算机将一组样本数据集学习泛化为某种行为或模型,因而,初始步骤的任务就是理解我们想要学习的能力。

在企业中,这个阶段的主要任务是进行可行的讨论和头脑风暴,读者需要自问以下问题。

  • 目前需要解决的是什么问题?
  • 当前的信息渠道是什么?
  • 如何简化数据采集方式?
  • 输入的数据是完整的吗?是否有空缺?
  • 为了获取和处理更多的变量,还可以合并哪些额外的数据源?
  • 数据是否是周期性出现的?或者是否可以实时获取数据?
  • 对于特定的问题,时间的最小代表单位是什么?
  • 问题中需要描述的行为特征是否改变?或者其基本特征在一定时间内是否稳定?

明确所研究的问题,包括扩展商业知识面并研究所有可能影响模型的有价值的信息源,当以上两部分内容确定后,接下来的任务就是生成一个具有某种组织形式和结构的变量集合,并以此作为模型的输入。

下面以一个问题定义和分析思考的过程来举例说明,假设公司A是一个零售连锁店,需要预测市场对某种产品在某一天的需求量,这是一个比较复杂的问题,因为它涉及顾客的行为,其中包含着一些不确定的因素。 ...

Get 机器学习开发者指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.