Ab test

1基本原理#

略
- 随机化实验
- 假设检验

2. AB test 敏感性#

【ab test的基本问题】:
假设实验组和对照组分别是 $y_t$ 和 $y_c$ ，最终进行假设检验的统计量是t检验
$<span class="arithmatex"><span class="MathJax_Preview">t = \frac{\bar Y_t-\bar Y_c}{\sqrt Var(\bar Y_t-\bar Y_c)}</span><script type="math/tex">t = \frac{\bar Y_t-\bar Y_c}{\sqrt Var(\bar Y_t-\bar Y_c)}$

$t = \frac{Y_t-Y_c}{\sqrt {\sigma^2_t/n + \sigma^2_c/n}}$

提高敏感性的方法：

(1) 增加样本量
(2) 减少抽样方差 variance reduction
- metric transformation
对于长尾分布的metric，需要先对数据做一定的转换。比如对于极端值直接使用分位点:
-
- 衡量指标使用中位数，而非均值

CUPED(Controlled Experiment Using Pre-Experiment Data) 该方法在实际中一般都会比较有效
回归调整：
假设我们的目标变量是Y，我们可以找到一个和Y相关性比较高的特征X，并且X不受到实验分组影响。定义一个新的目标变量 $Y'=Y -\theta X$
则有:
$<span class="arithmatex"><span class="MathJax_Preview">Var(Y')=Var(Y)(1-\rou^2)</span><script type="math/tex">Var(Y')=Var(Y)(1-\rou^2)$
从而Y'的方差是要比Y的方差小的，而且X与Y相关性越大，这个差值的方差越小。
比如：如果实验的观察变量是每周酒店订阅数，那么协变量可以是开始实验之前的那周酒店的订阅量
post- stratification [13] 分层采样
作者提出的variance-weighted estimators
根据前面分层采样的方式，不同的数据group可以采用不同的权重，这个估计量还是无偏的，所以可以设计合适的权重让总体的方差尽可能小。

确定样本量#

整体确定样本量的方法是类似的，不同的指标细节会有不同，大致都是根据置信区间保证误差在一定范围内，然后反解出样本量
参数估计-样本量的确定

3. 常见问题#

(1) ab-test的结果和实际上线后的结果不一致#

比如ab-test的时候发现指标上涨10%，但是上线后指标却是持平

ab-test实验是否合理
1. 样本量是否充足，指标结果是统计显著的吗
2. 实验时间短，可能有”新奇效应“
3. 实验人群和线上人群不一致，比如区域、流量源
外部环境。比如不同时间段、节假日、政策、舆论等

reference#

提高实验敏感性《Variance-Weighted Estimators to Improve Sensitivity in Online Experiments》

[9] William Fithian and Daniel Ting. 2017. Family learning: nonparametric statistical inference with parametric efficiency.