第6章 用对率回归预测点击率

在本章中,我们将继续解决产值高达数十亿美元的广告点击率预测问题。我们重点学习数据预处理技巧、一位有效编码、对率回归[1]算法及正则化方法,我们还将改造对率回归算法以应用于大型数据集。我们不仅用对率回归算法分类,还将讨论如何用它选择显著的特征。

在本章中,我们将深入讲解以下主题。

  • 一位有效编码。
  • 对率函数。
  • 对率回归的原理。
  • 梯度下降和随机梯度下降。
  • 对率回归分类器的训练。
  • 对率回归的实现方法。
  • 用对率回归预测点击率。
  • 对率回归的L1和L2正则化。
  • 用对率回归选择特征。
  • 线上学习。
  • 另一种选择特征的方法:随机森林。

在第5章中,我们简单介绍了一位有效编码,该方法将类别型特征(categorical feature)转换为数值型特征(numerical feature),以便正常使用scikit-learn库中基于树的算法。对于只接收数值型特征的其他算法,如果我们能采用该技术来转换特征,那么,我们也可以使用这些不是基于树的算法了。

一个类别型特征,若有k个可能的取值,我们能想到的最简单的转换方法是,将每个特征值对应到1k之间的某个数值。例如,[Tech, Fashion, Fashion, Sports, ...

Get Python机器学习案例精解 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.