一篇文章读懂A/B测试背后的统计学原理

#交互学堂##A/B 测试#为了可以让大家更好地理解 A/B Testing 背后的统计学知识,我们之前已经发过几篇深度分析文章;但是这些文章中涉及的一些术语和统计学知识,对一些基础不太好的同学难免会造成困惑,为了可以让大家更好地理解这后面蕴藏的学术逻辑和算法基础,我们特地从非学术的角度整理出一期内容,献给大家参考。

 

A/B 测试是一种对比试验,在试验过程中,我们从总体中抽取一些样本进行数据统计,进而得出对总体参数的一个评估。我们能从试验数据中得出有效结论的科学基础是基于统计学原理。

 

从 A/B 测试的试验原理来看,它是统计学上假设检验(显著性检验)的一种形式。

 

既然涉及统计学了,我们先来了解一些基础概念,这些会对我们理解这些内容有很大帮助。

在现在的 Appadhoc 平台做测试时,我们通过对试验数据的解读来确认哪个版本的效果更好;整个过程就其实相当于在做一个对比试验,通过综合对比原始版和试验版本的样本数据,从而判断这两个版本存在差异或者相同的结论。

 

首先,在试验过程中存在2个假设,这两个假设的关系我们需要先搞清楚。

原假设:我们希望通过试验结果推翻的假设

备择假设:我们希望通过试验结果验证的假设

 

我们在做A/B测试时,利用试验样本数据判断备择假设是否成立。逻辑上运用反证法,统计上依据小概率思想。原假设和备择假设是一个完备事件组,而且相互对立。在一项假设检验中,原假设和备择假设必有一个成立,而且如果其中一个不成立则必须无条件接受另一个。

 

在A/B测试过程中,因为我们试验的目的是通过反证法证明测试版本和对照版本有明显的不同(提升),所以在这个场景中,原假设就是原始版本和试验版本无差异,而备择假设就是这两个版本存在差异;这也很好理解,因为我们肯定不希望做了半天测试,得到的结果是两个版本一点差异都没有吧?

 

现在中心思想明确了,我们的做A/B测试的试验的目的就是推翻2个版本无差异的原假设,验证他们有差异的备择假设。

 

既然做试验时,我们通过样本数据去验证我们的观点,那肯定会有犯错的概率,为了得到科学的试验结果,我们则需要尽可能减少这些可能导致我们队试验结果做出误判的概率。

第一类错误:原假设为真时拒绝了原假设

首先我们容易犯的就是第一类错误,就是原假设为真时拒绝了原假设,说白了就是过来就是2个版本无差异时候,我们错误 的认为他们有差异(从统计学角度讲也叫弃真错误)这个错误的后果非常严重,所以我们把这它的标准设一个值0.05, 它其实就是一个概率, 这个概率就是我们容许自己出错的概率。

 

这个就是5%就是在统计学里称作 α , 它代表着我们这个试验结果的置信水平。与这个置信水平相对应的就是置信区间的置信度,由 1- α 得出,所以你在这里看到如果 α 是0.05,那置信度就是0.95,也就是说,如果我们容许自己出错的几率是5%,那我们将得到一个有 95% 的可能性包含真实的总体均值区间范围,如果你把这个 α 调整成0.07,那你的置信区间的置信度将变成93%。

 

由于 α 是我们自己设置的,那么当然需要通过数据去验证一下,这个通过计算出来的值就是 p-value , p 的定义就是,如果两个版本无差异的前提下,我们得到这个试验数据的概率。

 

p-value 是计算出的, α 是我们自己设定的。

%e7%bd%ae%e4%bf%a1%e5%8c%ba%e9%97%b4

p <= α 则意味着我们的测试得到了统计显著的结果, 因为只有我们得到的这个 p 的概率越小,我就可以越有信心的地根据小概率事件不会发生的判断依据,从而推翻原假设,接受备择假设。(假设 p 值0.04 那么意味着如果原假设为真,我们通过抽样得到这样一个样本数据的可能性只有 4%。则我可以认为此次试验发生了小概率事件。根据小概率事件不会发生的判断依据,我们可以反证认为原假设不成立,接受备择假设的事实。)

 

p 值核算涉及样本均值,样本数量,和标准差。

第二类错误:原假设为假时接受了原假设

减少了第一类错误后,还有另一种错误会影响我们的决断,

 

那就是原假设为假时接受了原假设,说白了就是2个版本有差异时候,我们错误 的认为他们没有差异 ,这个错误的概率在统计学角度也称为取伪错误,记为 β ),这个概率可以相对大一些,业界大约定俗成的一个标准就是10%和20%的概率。

 

和显著性水平一样,为了避免我们犯第二类错误,我们需要通核算 β 从而计算出另一个参数来给我们参考,就是统计功效,和核算置信区间的置信度类似,它是的思路是 1-β 来得出 (统计功效  power = 1 – β )

 

统计功效是指版本差异(效果)为某个指定值时,通过显著性检验能正确地把差异检验出来的概率。说白了就是,假设两个版本的确存在差异,我们能够正确拒绝原假设,获得统计显著性结果(95%置信区间中数据)的概率。

 

统计功效的核算涉及样本数量,方差, α 、以及最小变化度或者置信区间下限。

 

由此可见,只有我们把第一类错误控制在5%以内,第二类错误控制在10%-20%左右,我们才可以说得出具有参考价值的出的试验数据。

 

换句话说,我们在做A/B测试时,试验结果达到95%的置信度,以及80%-90%的统计功效时,它对我们来说才是有意义、可以作为决策参考的。

 

本文作者:吆喝科技 CSM 团队傅礼阳,如果你对这篇文章感兴趣,或者还有不理解的问题,可以添加作者微信讨论:fly415。

原创文章,作者:ioued,如若转载,请注明出处:https://www.iamue.com/18769/

(0)
iouedioued
上一篇 2016-11-15 09:00
下一篇 2016-11-15

相关推荐

  • 深度点评亚马逊、微软、谷歌、IBM 等 6 大机器学习云

     来源:InfoWorld 译者:朱焕 【新智元导读】机器学习云这么多,各家特色是什么?哪个适合练级,哪里高手齐聚?哪家有不为人知的 Bug?最重要的,哪个最适合解决你的问题?资深程序员实测点评亚马逊、微软、谷歌、I…

    2016-05-24
  • 防止用户无意识犯错的6个实用方法

    #交互学堂##防呆设计#用户经常会从手头上的事情分心,提供建议,利用约束条件以及设计更灵活的方案能够防止无意识的差错产生。今天这篇译文讨论了6个防止用户无意识犯错的方法,专业干货收。

    2016-11-02
  • 『用研面面观』之投射技术在用户访谈中的应用

    #交互学堂#深度访谈是用户研究中经常用到的研究方法,它是一种无结构的、直接的、一对一的访问形式,用以揭示被试对某一问题的潜在动机、态度和情感。它的关键在于『深度』。怎样才能做到有『深度』呢?那就不得不…

    2016-11-09
  • 做一次完美的用户调研

    1.为用户归类,选择典型的代表 调研的最初,我们需要做的第一件事就是确定调研对象。我们在调研的时候经常会说”向对的人问对的事情”,这句话的意思是:调研不同的用户群体获得不一样的需求。根据被调研对象的不同,…

    用户研究 2016-05-03
  • 《用户无障碍体验的可访问性设计》读书总结

    这本书与市场上其他的设计书不同之处在于该书作者关注于残障用户以及行动能力有限的用户,旨在利用可访问性设计的思维来改善互联网的设计,最终实现不同生理条件的用户都能够平等的体验到电子产品的乐趣。 什么是可…

    用户研究 2016-01-28
  • 用户为王 - 关于征询授权、注册及加载等待的体验优化

    转载自 Be for web     C7210 发表 作为一名移动app的产品设计师,我(英文原文作者)每周都会下载很多app来试用,看看有哪些细处的交互模式或是惊艳的视觉设计能给自己带来启发。有时,你确实能发现一些app有着不错…

    2015-07-14
  • 关于用户体验设计中最常见的误解&为什么他们不适用?

    #用研##用户体验#UX Myths网站收集了很多关于用户体验设计中最常见的误解和解释了为什么他们不适用。现在将这些经验研究整理出来,为各位设计从业者做参考,避免依赖个人的主观经验来做判断。建议你阅读完之后,还…

    2016-11-10
  • 2016互联网女皇报告中文版独家首发!提供中英文版PDF免费下载,互联网从业者必读

    !!!图片很多,手机党请注意。 6月2日凌晨,有“互联网女皇”之称的Mary Meeker今天在美国Code大会上发布了2016年的互联网趋势报告。 (关注“艾欧交互设计”微信号:AioUED,回复“2016”可获取报告中英文版PDF下载链…

    2016-06-02
  • 是否后悔买了iPhone 6/plus?来看iPhone7的设计创意

             最近,有一些争论关于苹果2015年iPhone阵容。 虽然很多表明苹果将遵循传统,同样期待iPhone发布与更新内部今年晚些时候,其他人认为苹果制造商将打破其模式和直接跳转到iPhone的7系列。 无论原来是如此,下一…

    2015-05-11
  • 摩拜·用户体验调查

    今天主要分享虚拟背景下,关于摩拜用户体验升级的用户调研流程的介绍。那么,就正式开始啦~01 背景说明老板说,要提升用户体验!(简单粗暴)02 用户数据分析这一阶段主要需要结合背景,综合分析用户相关数据,以此为依据确定调研主题并筛选调研对象。人口统计学信息男女比例相当,分别占比51%、49%年龄集中在25~35岁,约占60%地域主要分布在一二线城市消费能力在中等及以上的超过80%使用场景通勤接驳,主要结合地铁/公交商业圈内代步直接骑车上下...

    2018-04-25