跳转至

特征处理—特征选择#

1. 简单筛选方法#

比如单变量的特征选择,可以通过相关系数等

2. 基于学习模型的特征排序#

  • 回归模型的系数
  • 正则化模型lasso/岭回归
  • 随机森林
  • 决策树

基于IV值#

适用:有监督、二分类

IV值即information value,用来表示特征对目标预测的贡献程度。

IV值的计算是以 WOE编码值为基础的,

IV_i = (\frac{bad_i}{bad_T} -\frac{good_i}{good_T})*WOE_i
IV = \sum_1^n IV_i
IV值的计算是对WOE值的加权和,是用来衡量WOE表示的变量对二分类变量之间关系的强度。

其中WOE_i = log(\frac{bad_i}{bad_T} /\frac{good_i}{good_T})
所以可以看到其实是两个熵IV = \sum p_ilog(p_i) - q_ilog(q_i)

一般地
V值取值含义:
(1)IV<0.02:无用特征
(2)0.02<IV<0.1:弱价值特征
(3)0.1<IV<0.3:中价值特征
(4)0.3<IV<0.5:强价值特征
(5)IV>0.5:价值过高,不真实

stepwise的变量选择#

  • 前向
  • 后向
  • 逐步

基于模型特征重要性的方式#

决策树,gbdt,xgb。。。

参考#

https://blog.csdn.net/kebu12345678/article/details/78437118
https://zhuanlan.zhihu.com/p/36539125