@因果推断
评估:
因果推断也好,AB-test也好,都是为了研究某个因素是否影响另一个的。实际场景中如果没办法进行ab-test可以尝试进行因果推断。
- ab测试
- 观察研究
分析逻辑#

观察性研究#
通过观察性研究来进行因果分析,会存在异质性问题
ability这个变量会影响对最终结果的估计。
因此分析异质性产生的原因,并且采取相应的解决措施就可以来解决该问题。
1. 遗漏了重要变量
2. 样本选择的有偏性
3. 测量方差。如果测量误差不是随机的,误差的发生概率与某个特征变量存在相关性,就会引起估计偏差
异质性问题分类:
- 可观测的、非可观测的
- 随时间变化的、随时间不变的
断点回归RDD#
基本方法:只取断点附近的数据进行分析。
比如前面研究是否上大学与income的关系,一般来说上大学的能力要比不上大学的能力强,此外还可能存在其他的差别因素。如果我们按照分数进行筛选,比如分数线是400,那么400上下的人能力水平应该是差不多的,比如350-400,400-450的两组人,可以进行分析对比,t-test
比如:研究大屏对商场中消费者的吸引程度。通过划分区域和停留时长,认为构造出两个相似的人群。
IV 工具变量#
研究X->Y, 但是Z是混杂因子,可以找另一个变量T,T与Y,Z不相关,与X强相关。
从因果图上看是阻断
从回归模型看,其实是解决了X与Z之前贡献相关的问题
两阶段回归
PSM#

PS就是以干预因素(组别)为因变量,以所有观测到的非研究性因素为自变量进行logistic或probit回归. 得到倾向性得分
- 同时影响干预分配和结果的变量应该被包括(使CIA成立)
- 被干预项影响的变量应该排除(变量需要在干预项前计算)
匹配算法:为每个被干预的样本匹配一个(或多个)虚拟的对照样本。
https://zhuanlan.zhihu.com/p/491179790
(1) 最近邻匹配
对干预组中的用户,选取在对照组中倾向性
DID#
自己的实践案例#

过程漏斗实际是受到
- 品牌因素
- 场地动线、布局因素
- 客群属性因素
- 营销活动因素
等等的印象