第6章 从线性回归到逻辑回归
在上一章中,我们讨论了简单线性回归、多元线性回归和多项式线性回归。这些模型都是泛线性模型,它是一种比普通线性回归需要更少假设的灵活框架的特殊形式。在本章中,我们将讨论其中一些假设,这些假设和另一种称为逻辑回归的泛线性模型的特殊形式相关联。
和我们之前讨论的回归模型不同,逻辑回归常用于分类任务。回顾一下,分类任务的目标是引入一个函数,该函数能将观测值映射到与之相关联的类或者标签。一个学习算法必须使用成对的特征向量和它们对应的标签来推导出能产出最佳分类器的映射函数的参数值,并使用一些性能指标来进行衡量。在二元分类问题中,分类器必须将实例分配到两个类中的一个类。在多元分类问题中,分类器必须将一组标签分配给每个实例。在本章内容中,我们将使用逻辑回归来解决几个分类问题,讨论分类任务的性能衡量方式,并运用一些我们在第4章中学到的特征提取技巧。
6.1 使用逻辑回归进行二元分类
普通的线性回归假设响应变量符合正态分布。正态分布或者高斯分布,是描述任何一个观测值对应一个位于两个实数之间值的概率的函数。正态分布数据是对称的,一半值大于均值,另一半数据小于均值。正态分布数据的均值、中位数和众数也相等。许多自然现象都近似于正态分布。例如,人的身高是正态分布的,大多数人有平均身高,少数人长得高,少数人长得矮。在一些问题中响应变量不符合正态分布。例如,投掷一次硬币会产生两个结果——正面朝上或者背面朝上。伯努利分布描述了一个只能取概率为P的正向情况或者概率为1−P的负向情况的随机变量的概率分布。如果响应变量代表一个概率,它只能被限制在[0,1]中。线性回归假设一个特征值的同等变化将造成响应变量上的同等变化,然而如果响应变量表示一个概率,则该假设不成立。泛化的线性模型通过使用一个连接函数将特征的线性组合和响应变量相关联来去除该假设。实际上,我们在第2章中已经使用了一个连接函数,普通的线性回归是泛化线性模型的一种特殊形式,它使用恒等函数将特征的线性组合连接到一个正态分布响应变量。我们可以使用一个不同的连接函数来连接特征的线性组合和一个非正态分布响应变量。 ...
Get scikit-learn机器学习(第2版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.