第5章 用基于树的算法预测点击率

在本章和下一章中,我们将解决数字在线广告领域的一个重要的机器学习问题——点击率预测,即给定用户和他们正在访问的网页,预测他们有多大可能性点击给定广告。在本章,我们重点学习基于树的算法、决策树和随机森林,并利用它们解决关乎数十亿美元收入的问题。

在本章中,我们将深入讲解以下主题。

  • 在线广告点击率简介。
  • 两类特征:数值型和类别型。
  • 决策树分类器。
  • 决策树的原理。
  • 决策树的构造。
  • 决策树的实现。
  • 用决策树预测点击率。
  • 随机森林。
  • 随机森林的原理。
  • 用随机森林预测点击率。
  • 调试随机森林模型。

在线投放广告是数十亿美元的产业。在线广告形式多样,包括由文本、图像、动画和音视频等富媒体组成的横栏广告。广告主或广告代理机构在互联网上的多个网站以及移动应用端投放广告,以影响潜在顾客,传达广告信息。

在线投放广告是利用机器学习的绝佳例子。显然,广告主希望广告精确投放给顾客,因为顾客只爱看投放精确的广告。该行业主要利用机器学习模型的能力来预测广告的命中效果:特定年龄段的用户对产品感兴趣的可能性有多大;家庭收入处于某一水平的顾客,看到广告后有多大可能性购买产品;频繁访问体育网站的访客有多大可能性花更多时间阅读广告等。命中效果最常用的度量指标是点击率(Click-Through Rate,CTR),它是某一广告的点击数占总浏览数的比例。一般而言,在线营销活动,其广告的点击率越高,广告越精确,所宣传的活动就越成功。

点击率预测,既为机器学习开辟了广阔的应用前景,也为它带来了很多挑战。该任务主要是一个二值分类问题,用以下3个方面的具有预测意义的特征,预测给定网页(或移动应用)的给定广告是否会被给定用户点击:

  • 广告内容和信息(类型、位置、文本和格式等); ...

Get Python机器学习案例精解 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.