如何看待网站分析数据可能存在的偏差

http://www.itjxue.com  2015-07-29 22:02  来源:未知  点击次数: 

【导言】在做网站分析的漫长历程中,被问到最多的问题就是“你的数据精确吗?”网站分析的数据究竟准确与否,如何看待网站分析数据可能存在的偏差,本文将会给出答案。

【正文】

准确和精确在汉语里面是近义词,我们在口语中是可以混用的,英语中也如此,accurate和precise人们也是随性而用,脱口而出。可是,既然有两个词存在,而没有在文字演化的长河中消亡其中一个,就说明它们还是有微妙的不同。事实上,准确和精确绝对不是同一个概念,它们在工程学、统计学以及其他许许多多的科学中都被严格的区分,对于网站分析这么新兴的学科而言,也完全如此。

我们先看看准确和精确到底有什么不同,然后再看看网站分析工具能够做到准确还是精确,或是二者皆备。

———————快乐的分页符———————

何为准确,何为精确

维基百科上有关于准确和精确的极佳的解释,堪称经典词条。这里我用汉语向它致敬:准确是指现象或者测量值相对事实之间的离散程度小,也就是我们口语的“接近事实、符合事实”等;精确是指在条件不变的情况下,现象或者测量值能够低离散程度的反复再现,也就是我们口语说的“次次如此、回回一样”等。下面这两个图特别经典,从维基百科引用而来:

File:High accuracy Low precision.svg

图1:这是指相对较高的准确度,但相对较低的精确度

File:High precision Low accuracy.svg

图2:这是指相对较高的精确度,但相对较低的准确度

上面的两个图中红色的圆心代表着事实。可以看到,在图1中,测量值围绕着圆心,虽然分布离散,但可以看出它们的平均分布位置肯定在圆心中(或者说,多次测量值的平均值是符合事实的),所以可以称为准确,但因结果离散而不能称为精确。在图2中,测量值明显偏离圆心(测量值的平均值也不可能在圆心上),所以不能称为准确,但可以称为精确,因为测量值的复现离散度很低。这是对准确和精确的极好解释。

如果我们把准确和精确作为两个不同的维度建立矩阵,可以得到下面的图:

AccuracyPrecision

图3:准确和精确矩阵(图片来源:www.wellesley.edu)

左上象限是我们最喜欢的,既准确,且精确——对物理学和绝大多数理工科的要求就是如此;右下角是最糟糕的情况,不仅不精确,而且不准确——这是生活中最常见的,我们的社会生活其实很离散也很混沌。

那么,自然而然的你会问,网站分析属于哪个象限呢?一定是左上角的象限对吗?

网站分析是准确的吗?

首先,这个问题没有固定的答案,因为网站分析的准确度很大程度上取决于你的期望和所采用的监测方法和所使用的工具。不过,就我们最常使用的网站分析方法而言,网站分析绝对不属于图3中左边的两个象限(即不属于既准确又精确的象限,也不属于准确但不精确的象限),更简单说,就是网站分析的数据不会准确。

这可能会让你失望,但相信并不出乎你的意料。你肯定已经发现,如果我们使用不同的网站分析工具衡量同一个网站的时候,各工具的结果之间有令人费解的差异(我们在为什么两个监测工具报告中的数据不同有探讨个中原因),而且我们也无法知道哪个工具是更准确的还原了事实上的数据。

所以,如果GA显示你的网站在一个月内有36,954个Unique Visitor,你的网站的真实访问者(一个个活生生的网友!)肯定不是36,954个!

事实上,我们几乎找不出来任何一个能够准确被统计的度量,即使是最基本最简单的度量——Page View也是如此!

因此,如果你的老板想要100%没有误差地知道网站到底有多少个人访问过,这个想要本身已经没有意义。

为什么网站分析数据无法准确

你可能会吃惊,因为我们的物理学实际上也是不可能100%准确的,原因是我们都听说过的“测不准原理”。同样,网站分析也因为一个最基本的事实而无法准确,即:网站分析的监测媒介是浏览器和服务器,而不是真实的人,这注定了我们不可能寻求到准确的结果。

具体而言,就目前我们通常使用的两种监测方法——Server Log和Page Tag都不可能准确对网站分析的一些最基本度量进行计数。

Server Log的误差(Bias):image

Unique Visitor的误差:

如果用Server Log的方法监测数据,那么很显然,获取真实的访问者数量是不可能的任务。本身Server Log对于访问者的估算只能依据误差巨大IP,而网络爬虫/机器人的访问又使这种误差进一步扩大。

Page View的误差:

本来Server Log是可以很准确的记录Page View的,但是可惜Cache的出现让这成为历史。Cache极有可能会屏蔽服务器端的响应,这样Server Log可能不会留下任何关于某次Page View记录。

时间记录的误差:

在没有Cache干扰的情况下,服务器能准确探知访问开始的时间,但是访问结束的时间无法了解。因为访问结束往往是随关闭浏览器而一同结束的。关闭浏览器本身不能激发一条新的Server Log记录。

Flash站点误差:

如果一个网站主要构成部分是包含多个页面的一个Flash文件,或多个此类Flash文件的组合,那么Server Log不会记录Flash内部的操作,监测会几乎失效。

(责任编辑:IT教学网)

更多