第3章 线性回归

本章中,我们将通过最小化误差和损失函数,用一条线来拟合给定的点,学习机器学习项目的一般流程。

在前面的章节中,我们已经看过几种不同的问题和许多不同的解决方法。它们有一个共同的特点,就是根据已有的带标签的数据,定性地给出新数据的标签。这种问题,在社科领域最常见。

另一类常见的问题需要给出一个方程(提前建模好了的)的确切的数值。比如在物理学领域,我们需要根据温度和湿度的历史数据,预测未来的温度和湿度,我们把这类要得到确切数值的问题称为回归分析(regression analysis)。

具体到线性回归,我们通过线性方程表示输入跟输出量之间的关系。

正如之前所说,线性回归,是寻找一条直线,使得所有的点到这条直线的距离总和最短。

这种关系用经典的线性方程可以表示如下:

y={{\beta }_{0}}+{{\beta }_{1}}x

模型方法有如下的形式:

这里,β0也称作偏差(bias),是当x为0的时候,方程的值, β1是建模的那条直线的斜率。变量x通常称作自变量,而y一般称作因变量。有时也分别称作回归量和响应量。

下面生成人工数据集。在本例中,我们会随机生成一个近似采样随机分布,使得β1=2.0、β0=0.2,并加入一个噪声,噪声的最大振幅为0.4。

In[]: #Indicate the matplotlib to show the graphics inline %matplotlib inline import matplotlib.pyplot as plt # import matplotlib ...

Get TensorFlow构建机器学习项目 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.