Ab test
1基本原理#
略
- 随机化实验
- 假设检验
2. AB test 敏感性#
【ab test的基本问题】:
假设实验组和对照组分别是y_t和y_c, 最终进行假设检验的统计量是t检验
t = \frac{\bar Y_t-\bar Y_c}{\sqrt Var(\bar Y_t-\bar Y_c)}
提高敏感性的方法:
(1) 增加样本量
(2) 减少抽样方差 variance reduction
- metric transformation
对于长尾分布的metric,需要先对数据做一定的转换。比如对于极端值直接使用分位点:
- 
- 衡量指标使用中位数,而非均值
-
CUPED(Controlled Experiment Using Pre-Experiment Data) 该方法在实际中一般都会比较有效
回归调整:
假设我们的目标变量是Y,我们可以找到一个和Y相关性比较高的特征X,并且X不受到实验分组影响。定义一个新的目标变量Y'=Y -\theta X
则有:
Var(Y')=Var(Y)(1-\rou^2)
从而Y'的方差是要比Y的方差小的,而且X与Y相关性越大,这个差值的方差越小。
比如:如果实验的观察变量是每周酒店订阅数,那么协变量可以是开始实验之前的那周酒店的订阅量 -
post- stratification [13] 分层采样
-
作者提出的variance-weighted estimators
根据前面分层采样的方式,不同的数据group可以采用不同的权重,这个估计量还是无偏的,所以可以设计合适的权重让总体的方差尽可能小。

确定样本量#
整体确定样本量的方法是类似的,不同的指标细节会有不同,大致都是根据置信区间保证误差在一定范围内,然后反解出样本量
参数估计-样本量的确定
3. 常见问题#
(1) ab-test的结果和实际上线后的结果不一致#
比如ab-test的时候发现指标上涨10%,但是上线后指标却是持平
- ab-test实验是否合理
- 样本量是否充足,指标结果是统计显著的吗
- 实验时间短,可能有”新奇效应“
- 实验人群和线上人群不一致,比如区域、流量源
- 外部环境。比如不同时间段、节假日、政策、舆论等
reference#
提高实验敏感性 《Variance-Weighted Estimators to Improve Sensitivity in Online Experiments》
[9] William Fithian and Daniel Ting. 2017. Family learning: nonparametric statistical inference with parametric efficiency.