当前位置： > 网站运营 > 网站优化 > 文章内容

警惕Google Analytics A/B测试陷阱(2)

http://www.itjxue.com 2015-08-02 11:09 来源:未知 点击次数:

陷阱2：统计意义。

前面提到AB测试的环境应该尽量公平。但这不是说AB组数据必须对半开，才能有效分析。实际上，我们有时候必须用现有广告语A与新增广告语B对抗，必然面对较大的数据量差异。原则上，只要数据量充分，即使两组数据总量相差比较大，还是可以获得结论的。这是因为我们分析本身就是在查看趋势，100个人对广告语A的反馈和1000个人对广告语A的反馈，趋势可能相同。则100个人对广告语B的反馈和1000个人对广告语A的反馈，可能有可比性，只要原则上遵循轮流展示，我们可以假定这个趋势是稳定的。

问题在于，怎样算数据量充分呢？我们在实战中经常使用一个词汇叫做“统计意义” “statistical significance”。什么叫统计意义呢？英文原词实际上指的是统计学中的P值，也即显著性判断。比如我们设立一个假设广告语A的表现比广告语B好，这个假设检验中P=0.05，就是说有5%的可能性广告语B其实比广告语A好，而95%的可能性A确实比B好。这个5%有任何意义吗？没有，SEM实战中我们并不关心这个P值，因为干扰因素众多，肯定取不到绝对的精确度。

在实战中，我们说这个对比是否具有统计意义，是说数据是否提供证明，A确实有多少可能性好过B。比如要对比广告语A和广告语B的点击率或者转化率，A的点击率为50%， B点击率为100%，看起来B比A好了一辈，可这样的的数据是否具有统计意义，或曰，是否可信呢？

我所遇到过的不少搜索营销管理员在这个问题上都比较粗放，凭感觉来。可能2.1%不比1.8%好，但是2.5%就比1.8%好了。实际上，单一的点击率或者转化率是没有意义的，必须纳入数据规模才行。1000个展现的点击率2.5%似乎比1000个展现的点击率1.8好，但是1000个展现的点击率2.1%是不是比20个展现的点击率1.8%好呢？抓头皮了。其实网上有免费的工具可以提供简单的运算：http://www.splittester.com/index.php

利用Splitertester我们可以把AB测试的数据直接对比获得一个结果，如果数据过于接近，工具会提示你这个对比还不足以产生让人放心的结果。很方便吧？但要注意，这个工具主要测试的是两组数据之间的接近度，数据确实拉开距离的时候，它才能帮我们做出判断。但它并不衡量数据的充足性。看这个图：

splittester1 小心！A/B测试陷阱

A的点击1个，点击率50%， B的点击2个，点击率100%。Splittester说我们有90%的信心B的表现会比A好。你有这个信心么？我没有……个位数的数据几乎总是不可靠的。多几个点击或者转化就会完全改变点击率或者转化率，这么大的随机因素，我不可能对太过稀疏的数据产生90%的信心。

所以首先，AB测试的数据必须有足够的量，多少是足够？不知道，也许要加入一些主观判断，毕竟这些数据量很可能就是白花花的银子，但肯定不是个位数。其次，AB测试的数据结果差异必须有统计意义。数据量很足，但十分接近，我们就无法判定AB到底哪一则更好。

陷阱3：漏斗之外

第三个陷阱在我看来，是大部分AB测试实施者都忽略了的。说忽略也许不一定合适，因为我也想不出更好的办法，但这里的确有值得注意的因素。

当我们测试AB两则广告语的时候，也许会发现AB各拿1000个展现，A的点击率为2%，B的点击率为1%。A的表现比B好，则我们淘汰B，只使用A。原来的测试中，A获得1000×2%=20个点击，B获得1000×1%=10个，总点击量为30。剔除B以后，我们期望A获得（1000+1000）×2%=40个点击。但在实战中，我们经常会发现，剔除B以后，A的点击率也下降了，（1000+1000）×1.6%=32个点击，比期望值低了一截。

为什么会产生这种测试后效果下降的现象，网上讨论不少，但是没有统一的意见。我比较倾向于以下这种看法。我们习惯于把用户转化的过程用漏斗来表现。

funnel1 小心！A/B测试陷阱

AB测试中，我们会涉及一层或者几层，目的都是让这个漏斗变的宽些。A的漏斗比B宽，就用A取代B，但要注意，AB原来是并列的两个漏斗。B被剔除以后，原来B漏斗中的一些用户，不一定掉入A漏斗。因为AB所传达的用户体验不同，可能有一部分B用户从A漏斗中掉出去了。

通过AB测试获得更好的结果本来就是我们的目的，在不断循环的AB测试中，我们会不断改善某一条要素的效果，但同时会付出代价，就是不断有用户从这个漏斗中掉出去。尽管从结果上来说，应该是得到了改进，但若不注意这些掉出去的用户流量，我们也浪费了很多潜在的机会。

多样性和专精，在相当程度上是矛盾的，如何把握两者的平衡，恐怕是个主观判断。AB测试仍然是改善效果最简洁有效的手段，但越是简洁的测试，所忽略的要素也就越多，所有成功都是有代价的。所以，充分关注B们的多样性，注意网罗回收那些从A里掉出去的资源，我想也是长期优化所应该关注的一个环节吧？

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：如何做好外链外链的复杂性以及多样性

下一篇：病态SEO：2010年国内的SEO缺的是方向

警惕Google Analytics A/B测试陷阱(2)

(责任编辑：IT教学网)

相关网站优化文章

阅读排行

专题教程

推荐网站优化文章

最新更新网站优化