在网站分析中,经常会做网站优化测试,就会比较不同方案的转换率,例如跳出率,订单购买率,按钮点击率等;也会记录访客或者客户的详细数据表现。但很多时候差异都很小,究竟是保持现状还是全面采用新方案的内容,很难有结论,于是两者差异在统计学的意义是否显著就变得很重要。
这篇文章主要讲解两种检验数据的方法:分别是在Excel中使用已经写好函数的数据显著性计算器,和使用SPSS对详细客户数据进行显著性检验。
一、Excel-数据显著性计算器
假设有下列的数据:
那么我们可以使用Avinash Kaushik介绍的Excel-数据显著性计算器来检验,详细请查看http://www.kaushik.net/avinash/excellent-analytics-tip1-statistical-significance/
Excel文件可从此处下载:http://vdisk.weibo.com/s/cz9E6
输入数据后计算得知(Number of Test Participants是分母,Number of Conversions是分子),差异是显著的,因为方框中显示了”Yes”
以上方法的原理是两组数据的差异超过了数据置信区间的话,那么就会出现数据显著性差异的结果。
以上的方法适用于简单的两个比率之间的对比,接下来要说说高级点的内容,SPSS中的假设检验问题来比较两个样本的均值。
二、两独立样本T检验
SPSS中比较均值的方法包括:
在介绍两独立样本T检验之前,先说下均值的比较情况,由浅入深。
1.均值的检验
假设检验的步骤一般分为以下几步:
1)确定原假设和备选假设(原假设就的意思是对总体的比例、均值或分布做出某种假设)
2)选择检验统计量
3)计算检验统计量观测值发生的概率,P值
4)给定显著性水平α, 如果P<α, 即小概率事件发生,即原假设发生的概率很小,那么推翻原假设,如果P>α, 那么原假设成立。
假设有以下两种情况:
1)工厂的质量管理员说:产品缺陷率只有1/1000, 然后你开始抽查,抽了5件,就有2件是有问题的,那么问题就大单了。
因为1000件中最大缺陷数是1件,现在有2件,也就是概率极小的事情发生。
2)工厂的质量管理员说:产品缺陷率只有1/100,然后你开始抽查,抽了5件,就有2件是有问题的,那么问题也挺大单。
1000件中最大缺陷数是10,现在有2件,接下来还有995件要查,那么有两种可能:
*产品缺陷率远远高于1%,质量管理员忽悠人;
*碰巧抽到有缺陷的产品,接下来的995件很少有缺陷的了。
概率计算:
原假设:也就是假设产品缺陷率是1/100, 前面抽了5件,就有2件次品的概率是0.088%;
抽5件中2件,后续抽查产品缺陷率小于1/100的的概率为0.088%;抽5件中2件,后续抽查产品缺陷率大于1/100的的概率为99.912%,即原假设发生的概率《α,如果α为5%,那么0.088%《5%, 即检验中的小概率事件发生,原本不太可能的事情发生了,那么推翻原假设。
注意:数据案例来自李洪成老师的SPSS资料