第6章 用对率回归预测点击率
在本章中,我们将继续解决产值高达数十亿美元的广告点击率预测问题。我们重点学习数据预处理技巧、一位有效编码、对率回归[1]算法及正则化方法,我们还将改造对率回归算法以应用于大型数据集。我们不仅用对率回归算法分类,还将讨论如何用它选择显著的特征。
在本章中,我们将深入讲解以下主题。
- 一位有效编码。
- 对率函数。
- 对率回归的原理。
- 梯度下降和随机梯度下降。
- 对率回归分类器的训练。
- 对率回归的实现方法。
- 用对率回归预测点击率。
- 对率回归的L1和L2正则化。
- 用对率回归选择特征。
- 线上学习。
- 另一种选择特征的方法:随机森林。
6.1 一位有效编码——将类别型特征转换为数值型特征
在第5章中,我们简单介绍了一位有效编码,该方法将类别型特征(categorical feature)转换为数值型特征(numerical feature),以便正常使用scikit-learn库中基于树的算法。对于只接收数值型特征的其他算法,如果我们能采用该技术来转换特征,那么,我们也可以使用这些不是基于树的算法了。
一个类别型特征,若有个可能的取值,我们能想到的最简单的转换方法是,将每个特征值对应到1到之间的某个数值。例如,[Tech, Fashion, Fashion, Sports, ...
Get Python机器学习案例精解 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.