特征处理—特征选择#

1. 简单筛选方法#

比如单变量的特征选择，可以通过相关系数等

2. 基于学习模型的特征排序#

回归模型的系数
正则化模型lasso/岭回归
随机森林
决策树

基于IV值#

适用：有监督、二分类

IV值即information value，用来表示特征对目标预测的贡献程度。

IV值的计算是以 WOE编码值为基础的，

$<span class="arithmatex"><span class="MathJax_Preview">IV_i = (\frac{bad_i}{bad_T} -\frac{good_i}{good_T})*WOE_i</span><script type="math/tex">IV_i = (\frac{bad_i}{bad_T} -\frac{good_i}{good_T})*WOE_i$
$<span class="arithmatex"><span class="MathJax_Preview">IV = \sum_1^n IV_i</span><script type="math/tex">IV = \sum_1^n IV_i$
IV值的计算是对WOE值的加权和，是用来衡量WOE表示的变量对二分类变量之间关系的强度。

其中 $WOE_i = log(\frac{bad_i}{bad_T} /\frac{good_i}{good_T})$
所以可以看到其实是两个熵 $IV = \sum p_ilog(p_i) - q_ilog(q_i)$

一般地
V值取值含义：
（1）IV<0.02：无用特征
（2）0.02<IV<0.1：弱价值特征
（3）0.1<IV<0.3：中价值特征
（4）0.3<IV<0.5：强价值特征
（5）IV>0.5：价值过高，不真实

stepwise的变量选择#

前向
后向
逐步

基于模型特征重要性的方式#

决策树，gbdt，xgb。。。

参考#

https://blog.csdn.net/kebu12345678/article/details/78437118
https://zhuanlan.zhihu.com/p/36539125