一篇文章读懂A/B测试背后的统计学原理

#交互学堂##A/B 测试#为了可以让大家更好地理解 A/B Testing 背后的统计学知识，我们之前已经发过几篇深度分析文章；但是这些文章中涉及的一些术语和统计学知识，对一些基础不太好的同学难免会造成困惑，为了可以让大家更好地理解这后面蕴藏的学术逻辑和算法基础，我们特地从非学术的角度整理出一期内容，献给大家参考。

A/B 测试是一种对比试验，在试验过程中，我们从总体中抽取一些样本进行数据统计，进而得出对总体参数的一个评估。我们能从试验数据中得出有效结论的科学基础是基于统计学原理。

从 A/B 测试的试验原理来看，它是统计学上假设检验(显著性检验)的一种形式。

既然涉及统计学了，我们先来了解一些基础概念，这些会对我们理解这些内容有很大帮助。

在现在的 Appadhoc 平台做测试时，我们通过对试验数据的解读来确认哪个版本的效果更好；整个过程就其实相当于在做一个对比试验，通过综合对比原始版和试验版本的样本数据，从而判断这两个版本存在差异或者相同的结论。

首先，在试验过程中存在2个假设，这两个假设的关系我们需要先搞清楚。

原假设：我们希望通过试验结果推翻的假设

备择假设：我们希望通过试验结果验证的假设

我们在做A/B测试时，利用试验样本数据判断备择假设是否成立。逻辑上运用反证法，统计上依据小概率思想。原假设和备择假设是一个完备事件组，而且相互对立。在一项假设检验中，原假设和备择假设必有一个成立，而且如果其中一个不成立则必须无条件接受另一个。

在A/B测试过程中，因为我们试验的目的是通过反证法证明测试版本和对照版本有明显的不同（提升），所以在这个场景中，原假设就是原始版本和试验版本无差异，而备择假设就是这两个版本存在差异；这也很好理解，因为我们肯定不希望做了半天测试，得到的结果是两个版本一点差异都没有吧？

现在中心思想明确了，我们的做A/B测试的试验的目的就是推翻2个版本无差异的原假设，验证他们有差异的备择假设。

既然做试验时，我们通过样本数据去验证我们的观点，那肯定会有犯错的概率，为了得到科学的试验结果，我们则需要尽可能减少这些可能导致我们队试验结果做出误判的概率。

第一类错误：原假设为真时拒绝了原假设

首先我们容易犯的就是第一类错误，就是原假设为真时拒绝了原假设，说白了就是过来就是2个版本无差异时候，我们错误的认为他们有差异（从统计学角度讲也叫弃真错误）这个错误的后果非常严重，所以我们把这它的标准设一个值0.05，它其实就是一个概率，这个概率就是我们容许自己出错的概率。

这个就是5%就是在统计学里称作 α , 它代表着我们这个试验结果的置信水平。与这个置信水平相对应的就是置信区间的置信度，由 1- α 得出，所以你在这里看到如果 α 是0.05，那置信度就是0.95，也就是说，如果我们容许自己出错的几率是5%，那我们将得到一个有 95% 的可能性包含真实的总体均值区间范围，如果你把这个 α 调整成0.07，那你的置信区间的置信度将变成93%。

由于 α 是我们自己设置的，那么当然需要通过数据去验证一下，这个通过计算出来的值就是 p-value ， p 的定义就是，如果两个版本无差异的前提下，我们得到这个试验数据的概率。

p-value 是计算出的， α 是我们自己设定的。

%e7%bd%ae%e4%bf%a1%e5%8c%ba%e9%97%b4

p <= α 则意味着我们的测试得到了统计显著的结果, 因为只有我们得到的这个 p 的概率越小，我就可以越有信心的地根据小概率事件不会发生的判断依据，从而推翻原假设，接受备择假设。（假设 p 值0.04 那么意味着如果原假设为真，我们通过抽样得到这样一个样本数据的可能性只有 4%。则我可以认为此次试验发生了小概率事件。根据小概率事件不会发生的判断依据，我们可以反证认为原假设不成立，接受备择假设的事实。）

p 值核算涉及样本均值，样本数量，和标准差。