第6章 贝叶斯建模——线性模型

线性回归模型力求解释一个变量在另一个变量或其他一些变量存在情况下的行为。模型假设变量之间的关系是线性的。通常,目标变量,也就是需要解释的变量的期望是其他变量的仿射变换。

线性模型可能是用途最广的统计模型,主要是因为它简单、明了,而且也经过了几十年的研究,提出了所有可能的扩展和分析模型。所有的统计程序包、语言或者软件都可以实现线性回归模型。

这个模型的思想很简单:变量y需要被一些变量x解释,或者说是被x的线性组合——带权重的x总和解释。

这个模型诞生于18世纪Roger Joseph Boscovich的工作中。然后,Pierre-Simon de Laplace,Adrien-Marie Legendre和Carl Friedrich Gauss都使用了这个方法。19世纪的数学天才Francis Galton可能是第一个使用”线性回归”这个词的人。

这个模型可以简单地写成变量线性组合的形式,如下:

y0+β1x1+β2x2+...+βnxn+

这里,y是要解释的变量,x用来解释变量,是可以被x解释的随机噪声。这个噪声通常是平均值为0、方差为σ2高斯分布随机变量。

那么,在实际问题中这个公式的是什么意思?模型背后的直觉告诉我们,每一个被重新刻画的x都对y产生一点贡献。换句话说,y是由一些局部值x求和得到的。

有很多方法都可以从数据集估计参数的值。在很多情况下,估计每一个参数的值是最重要的工作,需要仔细研究。最常用的方法是最小二乘法,它试图最小化真实y值与x总和估计值之间的差异。事实上,和其他许多模型一样,把y表示成其他变量的和,是对实际值的近似。人们提出了许多数学工具和算法来回答线性回归的模型质量和参数质量。

  

词语 “差异” 只是一个类比。 ...

Get R概率图模型入门与实践 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.