Interleaving介绍

“每个男人生命中总有两个女人, 一个是红玫瑰，一个是白玫瑰。娶了红玫瑰，红玫瑰终将褪成墙上的一抹蚊子血，而白玫瑰则成了床前的一抹明月光。娶了白玫瑰，白玫瑰成了衣服上的一粒饭粒子，而红玫瑰则永远成了心口上的朱砂痣”
——张爱玲

搜索引擎系统一直追求将更好的结果展现给用户，从而提升用户体验。而与之对应的，我们也需要某种方法去评估其效果。而在搜索引擎评估系统中，似乎也有这么一对白玫瑰和红玫瑰——AB实验和interleaving实验。

1.AB-test的缺点#

AB实验（AB-Test），作为一种传统的评估及检测方式由来已久，由于其实验方法简单，适用场景多，因此在很多领域都有着广泛的应用（比如药物效果所进行的双盲AB测试）。搜索引擎评估之初，当开发出一个新的产品，对线上展现效果或者卡片样式做变化的时候，一个最自然的想法就是进行AB实验。实现方法是从线上随机抽取两份流量，一部分的人（A组）体验到新版效果，一部分人（B组）体验旧版的效果。通过对比两部分的指标情况，来判断新版本的整体效果。

然而AB实验并不是完美的，随着搜索引擎技术发展，人们在评估中也渐渐地发现了一些问题。她像白玫瑰，有时太过沉静和安稳。

1.实验不够敏感#

对于一个检索系统来说，很多时候，程序员们都是在搞各种排序算法，期望让更好更相关的结果排在前面，比如把原来展现在第3位置较差的结果调到了第4位，把第4位的好结果放到第3位。这种微小的变化，通过AB实验的统计性指标，很难度量出排序的变化所带来的体验影响。

2.低频无法准确分析#

随着搜索技术发展，各类中高频的需求满足情况逐步完善，用户体验持续提升。搜索竞品之间的争夺，更多的集中在对于冷门需求（通常为频次低，Query较长）的效果体验差异上。在这种场景下，由于A组和B组两部分很难出现相同的查询请求（Query无法在A/B共现），因此，AB实验对于这部分的评估就非常困难，且无法提供有效的用户Case进行产品分析。

3. 实验周期一般较长#

此时，我们非常期待一个能够对用户行为有着更敏锐反馈的实验方式，期望用户在一次检索下既能看到新版又同时能看到旧版的效果，来进行更加直接的PK，也不用担心冷门Query无法复现的问题。像红玫瑰，热烈奔放，即使微弱的排序变化，也能够迅速捕捉，敏锐反映。

2.interleaving实验介绍#

Interleaving实验，从直观上来说，就是可以满足让用户”同时”看到新版和旧版两种效果的实验方式。那么，究竟要怎样设计才能让用户“同时”看到两种效果呢？下面就来简单的介绍一下interleaving的实验原理。

基本原理#

首先我们把新版的效果叫做策略组，记为A，旧版的效果叫做基线组，记为B。一个比较自然的想法，就是通过某种方式将策略和基线的效果merge到一起，这样用户就能“同时”看到两种效果。

图1、Interleaving图示

如图1示例，当用户检索一个Query的时候，算法A和算法B会分别有一套排序策略。展现结果分别是(A1, A2, ……)，(B1, B2, ……)。然后按照A优先或者B优先的方式，两边按顺序各自取一条结果，依次拼凑在一起。从而构成右侧的排序结果，这种方式称为balanced interleaving抽样。

算法实践#

上面是Interleaving的基本原理，在具体实践中，会有一些更加细节的考虑点。

重复结果问题

图2、Interleaving去重示例

在大多数情况下，策略结果并不会像图1所示变化那么剧烈（两侧结果完全不同），更多的策略往往是在已知的首页结果上进行更细化的排序，例如图2所示的例子。由于从用户感知层面来看，相同的结果只能够占据一个展示位置，因此要对重复结果进行消除。最终展现给用户的是无重复的结果。消除的原则是：相同结果仅保留在前面的一条。

此外，如何界定”相同结果”，也需要充分考虑。例如，如果仅仅采用URL做为结果的区分标准，可能会将一些URL相同，但展现丰富程度不同的结果去掉（例如某些特型卡片）。此时，需要从全面评估角度进行更详细的设计。

均匀抽样问题

搜索中，用户的点击是有位置偏差的，越靠前的结果越容易被点击。即在A优先的前提下，用户更倾向于点击A的结果，这就造成了指标的偏差。因此在抽取流量时候，需要保证A优先和B优先的比例是一致的。这样从统计上可以将偏差打平。因此，理想情况下，为了保证度量的准确性，需要保证流量中有50%的是A优先，50%的是B优先。

其它问题

除了上述基本问题外，从评估角度出发，需要考察各种可能导致评价误差的因素（例如展现样式和高度偏差、位置偏差等），这里不再赘述

实验效果度量#

传统AB实验，评估更多的是用户的整体体验，主要通过点击率、有点比例，长点率，换query率等基础指标，来刻画用户体验的变化。而interleaving指标设计更多的体现在对于单次检索的评价上，且更多的应用在排序实验中。

基于单次检索的评价，在用户”同时”看到两侧结果的场景下，更多的体现在对于用户行为（点击、停留时长）的分配问题上。假设策略将一条基线没有的好结果提上来，用户点击后获得满足离开，这个点击会很自然的分配给策略方；当策略将一条基线已有的好结果提升位置展现，用户点击满足离开后，这时需要各分配一些分数给策略和基线方；当一次搜索是多次点击的情况下，如何分配和判断会变的更加复杂。

一般的，需要衡量的体验维度包括：
- 感知相关性
用户在排序感知上（包括飘红、摘要等展现要素）的差别，如上描述，这个可以通过点击的结果分配在策略或基线哪边更靠前来度量。

真实相关性
真实相关性也就是用用户点后，在结果页的真实满足程度，比如可以通过用户的停留时间来衡量。
其它方向度量
除了基础相关性度量外，由于Interleaving同时具有两侧的结果，我们还可以进行更多维度（时效性、权威性等）的度量。基于指标的具体计算这里不再展开。

3 Interleaving与AB实验方式区别#

作为两种不同的实验方式，AB和interleaving实验有不同的应用场景和优缺点。主要来说有这么几个方面：

指标敏感度
AB实验敏感度低一些，适合改动较大的策略，比如展现样式的变化，新增了一张阿拉丁卡片等；而interleaving实验敏感度比较高，主要应用在rank 排序类的实验中。
所需流量
AB实验因为敏感度低，一般所需流量较大(比如4%-6%)，而interleaving实验因为相对敏感，很小的流量就能出信号(比如0.25%)。
实验周期
AB实验因为抽的是两份不同的流量，在真正做实验之前，需要去验证两份流量是否天然存在偏差。所以一般需要空转3天，然后实验5天。而interleaving实验因为天然的就是同一个用户看到两种效果，因此不需要空转，一般实验3天左右即可。
指标设计
AB指标设计简单，直观且相对易于理解；而interleaving实验，因为本身的实验机制就比较复杂，指标设计也困难许多。
Case抽取
分析实验需要定位到具体的case级别，interleaving实验非常方便定位；而AB实验因为两边结果都不一定能复现，而且是不同人的行为，可比性较差。

4 小结#

总的来说，不管是interleaving实验还是AB实验，都是一种实验方式，他们有各自的优缺点和试用范围，都需要根据具体的产品或者策略类型去灵活的选择；不管是白玫瑰还是红玫瑰，都需要自己去选择合适的，从而能够有效的衡量出搜索引擎的排序和展现效果，不断提升用户的线上体验。

当然interleaving实验的具体度量方式和指标设计比较复杂，这次只是对其实验方式的一个简单介绍，没有具体展开。如果你想要接着了解她，可以期待我们下次的分享呦。

5. 专业版#

指标体系

指标阈值设计案例-指标阈值-rank搜索