第6章 回归分析

数据分析的一个基本目标是探索数据的规律。换句话说,先研究数据的模式,再根据发现的模式预测看不到的甚至未来的行为。当数据集看起来服从的模式很像数学函数时,识别这个函数或者函数类的算法就称为回归分析。就最简单的情况来说,如果数学函数是线性函数,那么这种分析就叫作线性回归。

术语“回归”由英国统计学家弗朗西斯·高尔顿(见图6-1)发明,高尔顿还提出过相关性的概念。高尔顿根据他的遗传学研究开创了数据科学领域。他有一项早期的研究与父子的身高有关,在这项研究中,他观察到高个父亲的儿子身高往往更趋向于平均值。这篇著名研究论文的标题是《身高遗传中的平均数回归》(Regression towards Mediocrity in Hereditary Stature)。

..\tu\B06398_06_01.png

图6-1 弗朗西斯·高尔顿爵士

线性回归分析是形式最简单的一般回归分析。它的主要思想是找到数字mb,这样方程y = mx + b的直线将紧密拟合给定数据集的(x, y)点。常数mb是直线的斜率和y轴截距。

微软Excel是处理回归分析的好工具,图6-2展示了Excel中线性回归的一个示例。数据集展示在左上角列A~B的第1~11行。它有两个变量WaterDextrose,包含10个数据点。这个数据来自于一个实验(来源:J. L. Torgesen, V. E. Brown, and E. R.Smith,Boiling Points of Aqueous Solutions ...

Get Java数据分析指南 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.