WOE、IV、PSI介绍

WOE、IV、PSI介绍,第1张

WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。

要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)。分组后,对于第i组,WOE的计算公式如下:

IV的全称是Information Value,中文意思是信息价值,或者信息量。

从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。

一个变量的IV值即是各个分组IV值之和

群体稳定性指标(population stability index),用于衡量某个变量的稳定性或者模型整体的稳定性。

psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))

训练一个logistic回归模型,预测时候会有个概率输出p。你测试集上的输出设定为p1吧,将它从小到大排序后10等分,如0-0.1,0.1-0.2,......。

现在你用这个模型去对新的样本进行预测,预测结果叫p2,按p1的区间也划分为10等分。

实际占比就是p2上在各区间的用户占比,预期占比就是p1上各区间的用户占比。

意义就是如果模型跟稳定,那么p1和p2上各区间的用户应该是相近的,占比不会变动很大,也就是预测出来的概率不会差距很大。

一般认为psi小于0.1时候模型稳定性很高,0.1-0.25一般,大于0.25模型稳定性差,建议重做。

而在评分卡项目中略有不同:(1)可以用于衡量某个变量的稳定性,按变量原本分组得到的各组样本个数占比,与模型上线之后得到的数据中分组得到的各组样本个数占比进行比较。(2)在评分卡模型中,模型PSI计算中,分组是按照评分高低排序,而后分为十等分,而后进行计算。

WOE(Weight of Evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,WOE是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱)。

WOE的公式就是:WOE=ln(好客户占比/坏客户占比)×100%=优势比

下面举例说明:

首先明确woe转换并不一定能显著提高模型质量,建立评分卡也可以不采用woe,这种情况下logistic回归需要处理更大数量的自变量,尽管这样会增加建模的复杂性,但最终得到的评分卡都是一样的。即便如此,woe转换依旧有很多的优势:

通过woe转化,极大的提高了数据的可理解性,这对评分卡模型很重要。WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。

风控工作中,不管是特征工程、特征筛选、建模都常常涉及到的几个指标,简单总结下。

KS 是用于衡量正负样本比例差程度大小的评估指标。简而言之,便是好人的程度与坏人的程度之差。

表示第分段。

绿色的虚线的长短即代表着当前分段的 KS 大小。

理想状态下,KS 越高,越能反映特征或者模型的风险区分能力,完美的信用分分布是正态分布的。现实状态下,大于 0.9 就过于高了, 这样的模型没有代表性。模型 KS 过高也要考虑是否过拟合的问题。一般来说, KS 在 0.3 以上时才勉强可用于生产,风险区分效果一般。

同时,KS 的后期观测也相当重要,在后续的监控中, KS 若出现持续下降, 有可能是市场发生了变化,客群发生变化,或者模型本身不太稳定,所以训练模型时训练集与验证集的对比也相当重要,两者 KS 差距较大,说明模型过拟合,或泛化能力不强。

WOE 全拼 Weight of Evidence,即证据权重,用于风险评估、授信评分卡等。

表示第分段。也可转换后得到,

从上公式可知,WOE 实际展现的是 “该分段下的好用户数和坏用户数的比值” 与 “好用户总数与坏用户总数的比值” 的差异。WOE 越大,差异越大,好用户的可能性越大。

同时 WOE 变换常应用于特征工程,当我们对某些特征变量进行等频或等距等分箱后发现,发现每级分段 WOE 不满足单调性时(大部分为离散型变量),进行 WOE 变换,即采用对应每分段的 WOE 值替换掉特征原始值,此时该特征的分布将会是单调的。

通过 WOE 变换,同时保持 WOE 曲线具备单调性,带来的好处在于特征值与 y 值具备正(负)相关性,例如我们定义坏用户为 1 时,特征值越大,预测为坏人的概率将越高。

IV 全拼 information value, 即信息价值,是衡量特征对于模型预测能力的指标,常用于入模训练前的特征筛选的参考依据。

IV 可由 WOE 计算得到

整个特征的 IV 值则为每段 IV 值之和,可得

当特征的 IV 值越大,该特征的信息价值就越大,对于判断客户好坏的贡献越大,这样的特征越适合入模。

我们通常以 IV 来作为判断特征对于模型的预测能力的指标,因为 WOE 有正负值,而 IV 只会是正值。最重要的是,WOE 值没有体现出当前分段的个体数在总体数量中的比例,举个例子,若某个分段的 WOE 值很大,但是该分段的个体数占总体数量中很小的比例,这 WOE 便不具备整体的代表性,因为其对于整体的贡献太小,IV 值也会很小。因此,使用 IV 值作为判断预测能力的指标。

常常需要计算这些指标,对于每次都要跑大批量的特征,感觉异常烦躁,提高效率还是有必要,把这些指标整合起来写了个库,调用出结果。后来更懒了,写了层图形界面套上去,鼠标点一点就完事,及其舒适。果真懒才是人类进步的发动机。

源码: https://github.com/lianxiangtao/KS_IV

如果文章对你有所帮助,请不要吝啬手中的赞哦。心情会美美哒。

WX: xianyu_splash,本公众号用于记录本人学习历程、基础技术,分享日常灵感、优质工具,欢迎关注!共同进步!


欢迎分享,转载请注明来源:优选云

原文地址:https://54852.com/hy/843313.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-27
下一篇2023-06-27

随机推荐

  • 讲一讲,脸上长斑用哪种护肤品比较好呢

    护肤品我觉得没什么用,治标不治本,如果想要去掉,只有医美。斑点越深越大颗分布分明一颗颗的,比较好祛除。经济条件好的,可以选择皮秒。不然可以选择q顿(我们这边是叫调q、大q),做完以后注意后续防晒和保养,我是这样祛除的。从记事起我就有斑,一直

    2023-12-14
    43700
  • 卡姿兰智变调肤素颜霜可以吃不

    不可以哦按照素颜霜的英文产品名是toningcream,或是tone-upcream,也即调色霜,调亮霜之意。实际上素颜霜就是可以调亮肤色的的护理肌肤面霜,除了面霜的基本成分外,VC,白参,熊果苷等美白成分外,还含有二氧化钛,通过调亮肤色,

    2023-12-14
    29800
  • 韩国美白精华液排行榜,有什么韩国好用的美白精华推荐吗

    韩国美白精华液排行榜一、后密贴循环精华液推荐理由:这个品牌的产品在亚洲很受欢迎。这种精华可以渗透到皮肤的最内层,促进血液循环,使皮肤由内而外显得通透。是的,一直是支撑这个品牌的产品。二、雪花秀郝明草本精华推荐理由:这款精华性价比极高。能在极

    2023-12-14
    22100
  • 有适合学生党的香水吗

    1、菲拉格慕。一直在使用梦中情人的香水,淡淡的花果清香。闻起来也是甜而不腻,持久性也还好,维持一整天还是没有问题的,喷在手腕和耳根处。谨记不必喷太多,味道很清新,根本舍不得用的啊。2、爱丽小屋ColorfulScent香水。共8款。人气少女

    2023-12-14
    22600
  • 馥蕾诗fresh黑茶睡眠面膜怎么样

    睡眠面膜,顾名思义,指的是在晚上做完基础护肤之后,将睡眠面膜敷在脸上直接睡觉的一种面膜。一般清洗在第二天早晨,正常洁面即可。一般睡眠面膜都是啫喱或乳霜质地,涂上之后就像涂了一层护肤品,不会像普通面膜一样感觉糊了一层东西。大豆的洗面奶是卸妆界

    2023-12-14
    32900
  • 韩国的悦诗风吟绿茶保湿面霜适合什么年龄段的人用

    一般是20岁到26岁之间的年龄段使用,悦诗风吟的护肤品主要是以补水为主要功效。由于悦诗风吟品牌的年龄段定位,因此悦诗风吟产品只有肤质的区分。从悦诗风吟的产品系列也不难看出,都是针对年轻肌肤问题所推出的。产品功效也多是补水保湿、祛痘、清洁、美

    2023-12-14
    22500
  • 化妆品用多久才知道有没有效果

    因为皮肤的代谢周期是28天左右,所以看一种护肤品是否有效,至少需要1个月的时间。另外给你一个建议:护肤品一定要换着用!身边有朋友抱怨过某某品牌的某某东西很好用,于是一瓶还没用完就又买了一瓶屯起来,但是在用第二瓶的时候就不好用了,于是就再也不

    2023-12-14
    20500
  • 国内化妆品排行榜前十名

    国产化妆品牌排行榜前十名有:毛戈平、佰草集、相宜本草、百雀羚、完美日记、花西子、橘朵、美康粉黛、卡姿兰、御泥坊,其中佰草集品牌受到了众多消费者的喜爱。佰草集(Herborist)属于上海佰草集化妆品有限公司,上海佰草集化妆品有限公司是上海家

    2023-12-14
    20300
  • 男士脸上长痘用什么护肤品好

    用曼秀雷敦就可以。倩碧不适合你,虽然他是去油的。曼秀雷敦有收缩毛孔的。而且也是去痘痘的,没有反作用。屈臣氏超市就有,而且有BA会给你搭配讲解。有什么疑问,在问我吧。。。。。。。。呵呵■ 痘痘大多是由两个原因引起的,一个是因为皮肤属于油性皮肤

    2023-12-13
    22500

发表评论

登录后才能评论
保存