第2章 数据建模实战——“泰坦尼克号”示例
线性模型是数据科学领域的基本学习算法。理解线性模型如何工作对于学习数据科学至关重要,因为它是大多数复杂学习算法(包括神经网络)的基本构建模块。
本章将深入讲解数据科学领域的一个著名问题——“泰坦尼克号”示例。介绍这个例子的目的是引入线性模型以进行分类,并让读者看到一个完整的机器学习系统的运行过程,从数据的处理和探索到模型的评估。本章将介绍以下主题。
- 线性回归模型。
- 线性分类模型。
- “泰坦尼克号”示例——建立和训练模型。
- 不同类型的误差解析。
2.1 线性回归模型
线性回归模型是最基本的回归模型,并且广泛用于可预测数据的分析。回归模型的总体思路是检查以下两件事情。
- 一组解释性特征/输入变量是否在预测输出变量方面做得很好?该模型是否使用了可以解释因变量(输出变量)变化的特征?
- 哪些特征是因变量的重要特征?它们以何种方式影响因变量(由参数的大小和符号表示)?回归参数用于解释一个输出变量(因变量)与一个或多个输入要素(自变量)之间的关系。
回归方程可表达输入变量(自变量)对输出变量(因变量)的影响。具有一个输入变量和一个输出变量的等式是回归方程最简单的形式,回归方程定义为y = c+bx。这里,y是被预测的因变量,c是常数,b是回归参数/系数,x是输入(自)变量。
2.1.1 原因
线性回归模型是许多学习算法的基础模块,但这并不是它们受欢迎的唯一原因。以下是它受欢迎的关键因素。
- 广泛使用:线性回归是最古老的回归方法,它广泛应用于许多应用,如预测和财务分析。
- 运行速度快:线性回归算法非常简单,不包含复杂的数学计算。
- 易于使用(不需要很多调参操作):线性回归非常易于使用,而且在大多数情况下,它是读者在机器学习或数据科学课程中学习的第一种学习方法,因为它没有太多的超参数需要调整以获得更好的性能。 ...
Get 深度学习:核心原理与案例分析 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.