
A/B
测试
|
121
“强盗”来最大化回报之间达到平衡。
随着时间的推移,系统会改变体验改善的用户比例。简单地说,我们可以从分配
50%
给对
照组和
50%
给实验组开始实验
。假设实验组的测试效果非常好(我们看到每个实验视图的
CTR
都比每个对照视图的高很多)
,所以系统降低对照组的流量导入比例,增加实验组的
导入流量。现在,对照组的流量占
40%
,实验组的流量占
60%
。实验组的表现仍然不错
,
因此我们提升它的比例——现在对照组的流量占
30%
,实验组的流量占
70%
,以此类推
。
这样做有两个影响。第一,我们不必进行任何分析来判断哪个更好。我们可以观察相对比
例。第二,因为更好的实验进行了更长时间,所以从提升中立即获益。
与频率统计方法不同,我们可以随着时间的变化来观察变化中的系统,而且没有固定的时
长,也可以无限制地不断重复实验。事实上,我们可以增加、移除或者变更实验组,而所
有这些在频率统计方法中都是不允许的。我们继续运行或者设定一些停止标准:如果实验
组效果比对照组好
5%
,就将它定义为获胜者,将
100%
的流量分配给实验组。
显然,我略去了数学上的很多细节,例如更新规则或者概率是如何改变的。实际上,系统
被设计用于经历一段时间的
探索
和
开发
。在前一个过程中,你以相对频率尝试所有不同的
对照组和实验组;在后一个过程中,“痛击”当前的获胜者(“后悔”最小化)。这个贝叶
斯统计方法也会遭遇和频率统计方法一样的问题:实验组最终获胜可能归功于较高的
CTR
或者只是碰巧。如果的确是侥幸获胜的,那么后来加入的实验组可能会产生一个较低的 ...