跳转至

案例 指标阈值 rank搜索

1.dab类指标#

newpo, po, rank, rr, f1 最终计算方式都是 dab_{xx} = 0.5\frac{\sum awin -\sum bwin}{\sum awin + \sum bwin + \sum tie}

其中awin,bwin,tie可以按照不同的逻辑或方法进行计算。

p_1 = \frac{\sum awin}{\sum awin + \sum bwin + \sum tie}
p_2 = \frac{\sum bwin}{\sum awin + \sum bwin + \sum tie}

基于有点有diff的流量:
每次pv下,awin,bwin,tie必然出现且只出现其一。因此p1可以看做策略好的概率, p2可以看做基线好的概率。 概率本身是服从两点分布的,每次pv取0或1,样本量较大的时候(一般interleaving实验的样本量足够大了),可以近似成正态分布,即有

p_1 - N(P_1,P_1(1-P_1)/n1 )$$ $$p_2 - N(P_2,P_2(1-P_2)/n1 )

所以两者的差也是近似正态分布,有(注意P1与P2并不是相互独立的)

p_1 - p_2 ~ N(P_1 - P_2, \frac{(P_1+P_2-(P_1-P_2)^2)}{n})

所以dab的置信区间就是

[\frac{p_1 -p_2}{2}- z_{\alpha}\sqrt \frac{p_1+p_2-(p_1-p_2)^2}{4n}, \frac{p_1 -p_2}{2}+ z_{\alpha}\sqrt \frac{p_1+p_2-(p_1-p_2)^2}{4n}]

根据空转确定阈值#

空转时候理论上两边是没diff的,但是因为随机波动,产出的指标数据肯定不可能完全等于0,大概率上也是服从一个正态分布。根据小概率原理,在5%和95%的置信点上可以认为是异常值,就策略和基线不是持平而是有显著diff。
对应的阈值就是

z_{\alpha}\sqrt \frac{p_1+p_2-(p_1-p_2)^2}{4n}= z_{\alpha}\sqrt \frac{p}{2n}

所以这个阈值是与本身的p值的大小有关,与样本量也有关。