第4章 线性回归和逻辑回归

通过常规的特征对相似信息进行分组后,让我们从数学角度出发,寻找一种描述数据的方法。假设数据样本保持它们之前的特性,该方法通过一个特定的函数,压缩大量的信息,并且预测结果。

本章将讨论以下几点。

  • 逐步实现的线性回归。
  • 多项式回归。
  • 逻辑回归及其实现。
  • Softmax回归。

本章将先解释一个基本的问题:什么是回归?

回归基本上是一个统计过程。正如在第1章看到的,回归包含一系列具有特定概率分布的数据。总之,有大量的数据需要去描述。

在回归中,需要寻找哪些元素呢?最终目的是确定自变量和因变量的关系,因变量可以最优地适应所提供的数据。当一个函数可以用来描述自变量和因变量之间的关系时,这个函数将被称为回归函数。

有大量的函数类型可以用来对现有的数据进行建模,常见的是线性函数、多项式函数和指数函数。

这些方法的目标是确定一个目标函数,在这个例子中,函数将输出有限数量的未知优化参数,称为参数回归方法。

回归通常用于预测数据对应的变量值,是数据分析项目中最常用的初始数据建模方法,也可以用于优化过程,在相关但分散的数据之间找到共同点。

下面列出了一些回归分析的应用场景。

  • 在社会科学中,预测各种指标的未来值,如失业率和人口。
  • 在经济学中,预测未来的通货膨胀率、利率和其他类似的指标。
  • 在地球科学中,预测未来的现象,比如臭氧层的厚度。
  • 帮助处理普通企业考核指标的所有元素,添加生产吞吐量、收益、支出等的概率估计。
  • 证明两种现象之间的依赖性和相关性。
  • 找到反应实验中成分的最佳配合比。
  • 最小化风险组合。
  • 了解公司的销售对广告支出变化的敏感程度。
  • 了解股票价格受利率变化的影响。

定量变量和定性变量

在处理数据的日常工作中,并不是所有的元素都是相同的,因此它们需要根据各自的特点进行特殊处理。为了识别问题的变量的合适度,可以进行一个非常重要的区分,即使用以下标准将数据类型划分为定量数据变量和定性数据变量。 ...

Get 机器学习开发者指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.