
A/B
测试
|
119
的效果当作实验效果(推出一个没有实际作用的功能)。简而言之,你会得到更多的假阴
性或假阳性结论。永远不要因为实验效果看上去不错而缩短实验时长。
然而,许多
A/B
测试供应商鼓励用户运行实验
,直到获得显著性结果。永远不要这样运行
测试!通过以
4
个
厂家为例,
Martin Goodson
说道:“一个用于
A/B
测试的软件的设计方式,
让人很自然地一路监控测试结果,只要一获得显著结果就停止实验。令人担忧的是,用这种
方式执行测试的话,
80%
的测试结果会是假阳性。
”(参见“
How Not To Run An A/B Test
”。)
一旦你已经增大了实验的样本容量,而且有把握不出现恶劣问题,最好的建议是,以
Ronco
(街舞)方式去运行测试
:“设定,然后忘却。”随着时间的推移监控样本容量,而
不是评估指标。
8.3
其他方法
下面简要介绍其他两种可代替
A/B
测试或
A/A
测试的简单方法。
8.3.1
多变量测试
前面只讨论了组对(双样本)测试,一个对照组和一个实验组(
A/B
)或另外一个对照组
(
A/A
)
。这种实验设计非常简单有效。但是,它们也存在一些缺点。回忆一下,在之前讨
论的奥巴马助选活动中,他们采用不同文字和图片测试了提交按钮。因为他们准备了
5
种
按钮文字和至少
6
种图片
,所以存在至少
30
种组合。按顺序测试所有组合意味着要花费
30
倍于单次
A/B
测试的时间。正是因为这个原因,有时会使用多变量测试。
这些测试也称为多变量测试或者因子测试,同时运行不同的变量组合(或“菜单”)。也就
是说,组
1
用户看到图片