WOE、IV、PSI介绍

WOE、IV、PSI介绍,第1张

WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始自变量的一种编码形式。

要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,说的都是一个意思)。分组后,对于第i组,WOE的计算公式如下:

IV的全称是Information Value,中文意思是信息价值,或者信息量。

从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,……,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。

一个变量的IV值即是各个分组IV值之和

群体稳定性指标(population stability index),用于衡量某个变量的稳定性或者模型整体的稳定性。

psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))

训练一个logistic回归模型,预测时候会有个概率输出p。你测试集上的输出设定为p1吧,将它从小到大排序后10等分,如0-0.1,0.1-0.2,......。

现在你用这个模型去对新的样本进行预测,预测结果叫p2,按p1的区间也划分为10等分。

实际占比就是p2上在各区间的用户占比,预期占比就是p1上各区间的用户占比。

意义就是如果模型跟稳定,那么p1和p2上各区间的用户应该是相近的,占比不会变动很大,也就是预测出来的概率不会差距很大。

一般认为psi小于0.1时候模型稳定性很高,0.1-0.25一般,大于0.25模型稳定性差,建议重做。

而在评分卡项目中略有不同:(1)可以用于衡量某个变量的稳定性,按变量原本分组得到的各组样本个数占比,与模型上线之后得到的数据中分组得到的各组样本个数占比进行比较。(2)在评分卡模型中,模型PSI计算中,分组是按照评分高低排序,而后分为十等分,而后进行计算。

WOE(Weight of Evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,WOE是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱)。

WOE的公式就是:WOE=ln(好客户占比/坏客户占比)×100%=优势比

下面举例说明:

首先明确woe转换并不一定能显著提高模型质量,建立评分卡也可以不采用woe,这种情况下logistic回归需要处理更大数量的自变量,尽管这样会增加建模的复杂性,但最终得到的评分卡都是一样的。即便如此,woe转换依旧有很多的优势:

通过woe转化,极大的提高了数据的可理解性,这对评分卡模型很重要。WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。

风控工作中,不管是特征工程、特征筛选、建模都常常涉及到的几个指标,简单总结下。

KS 是用于衡量正负样本比例差程度大小的评估指标。简而言之,便是好人的程度与坏人的程度之差。

表示第分段。

绿色的虚线的长短即代表着当前分段的 KS 大小。

理想状态下,KS 越高,越能反映特征或者模型的风险区分能力,完美的信用分分布是正态分布的。现实状态下,大于 0.9 就过于高了, 这样的模型没有代表性。模型 KS 过高也要考虑是否过拟合的问题。一般来说, KS 在 0.3 以上时才勉强可用于生产,风险区分效果一般。

同时,KS 的后期观测也相当重要,在后续的监控中, KS 若出现持续下降, 有可能是市场发生了变化,客群发生变化,或者模型本身不太稳定,所以训练模型时训练集与验证集的对比也相当重要,两者 KS 差距较大,说明模型过拟合,或泛化能力不强。

WOE 全拼 Weight of Evidence,即证据权重,用于风险评估、授信评分卡等。

表示第分段。也可转换后得到,

从上公式可知,WOE 实际展现的是 “该分段下的好用户数和坏用户数的比值” 与 “好用户总数与坏用户总数的比值” 的差异。WOE 越大,差异越大,好用户的可能性越大。

同时 WOE 变换常应用于特征工程,当我们对某些特征变量进行等频或等距等分箱后发现,发现每级分段 WOE 不满足单调性时(大部分为离散型变量),进行 WOE 变换,即采用对应每分段的 WOE 值替换掉特征原始值,此时该特征的分布将会是单调的。

通过 WOE 变换,同时保持 WOE 曲线具备单调性,带来的好处在于特征值与 y 值具备正(负)相关性,例如我们定义坏用户为 1 时,特征值越大,预测为坏人的概率将越高。

IV 全拼 information value, 即信息价值,是衡量特征对于模型预测能力的指标,常用于入模训练前的特征筛选的参考依据。

IV 可由 WOE 计算得到

整个特征的 IV 值则为每段 IV 值之和,可得

当特征的 IV 值越大,该特征的信息价值就越大,对于判断客户好坏的贡献越大,这样的特征越适合入模。

我们通常以 IV 来作为判断特征对于模型的预测能力的指标,因为 WOE 有正负值,而 IV 只会是正值。最重要的是,WOE 值没有体现出当前分段的个体数在总体数量中的比例,举个例子,若某个分段的 WOE 值很大,但是该分段的个体数占总体数量中很小的比例,这 WOE 便不具备整体的代表性,因为其对于整体的贡献太小,IV 值也会很小。因此,使用 IV 值作为判断预测能力的指标。

常常需要计算这些指标,对于每次都要跑大批量的特征,感觉异常烦躁,提高效率还是有必要,把这些指标整合起来写了个库,调用出结果。后来更懒了,写了层图形界面套上去,鼠标点一点就完事,及其舒适。果真懒才是人类进步的发动机。

源码: https://github.com/lianxiangtao/KS_IV

如果文章对你有所帮助,请不要吝啬手中的赞哦。心情会美美哒。

WX: xianyu_splash,本公众号用于记录本人学习历程、基础技术,分享日常灵感、优质工具,欢迎关注!共同进步!


欢迎分享,转载请注明来源:优选云

原文地址:https://54852.com/hy/843313.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-06-27
下一篇2023-06-27

随机推荐

  • 圣罗兰口红怎么分辨是不是正品

    首先,你可以从包装上辨别真伪。区别在于包装盒上的文字,其中最上面的英文字母“ROUGEPURCOUTURE”不是特别粗,只是比最下面的字母粗一点点。而且正品包装盒上的字体整体纤细舒适,假货的粗糙甚至会带一点污迹。下图是真左假右。看外包装底部

    2023-12-14
    27700
  • 什么洁面产品好用口碑最好的洁面产品

    好用的洁面,给人的感觉绝对非同凡响,世界从此洁净了,会感觉脸皮里都是干净的,下面我带大家来看一下什么洁面产品好用?口碑最好的洁面产品 。什么洁面产品好用 TOP1:欣兰冻膜¥118 这款相信很多妹纸都用过,很温和,配合城野先生

    2023-12-14
    25800
  • 广州近期有什么展会

    广州2023年2月展会时间表如下:1、2023年2月15日-2023年2月17日2023中国国际化妆品、个人及家庭护理用品原料展览会(PCHi)。2、2023年2月22日-2023年2月24日第二十七届中国国际涂料、油墨及粘合剂展览会暨第三

    2023-12-14
    15100
  • 如何查化妆品是否在药监局备案了

    现在市面上化妆品牌子非常的多,也非常的杂。在网上购买的化妆品有些打着进口的旗号实则是三无产品。对于这样的化妆品我们是可以预先查它们是否在药监局备案,如何查询呢?一起了解下吧。 搜索中国食品药品监督管理局。打开化妆品选项。

    2023-12-14
    15800
  • 透明质酸的功效 什么产品中有它

    透明质酸具有良好的补水功效,是高档化妆品最好的天然保湿成分,它相容性好,几乎可以添加到任何美容化妆品中,广泛用于膏霜、乳液、化妆水、精华素、洗面奶、浴液、洗发扩发剂、摩丝、唇膏等化妆品中,一般添加量为0.05—05%。护肤成分之玻尿酸人体化

    2023-12-13
    16400
  • 资生堂小针管眼霜怎么用_资生堂小针管眼霜使用方法

    资生堂最近刚上市了全新悦薇珀翡塑颜抗皱霜,我立刻就下单购买了,拿回来才发现不会用。那么资生堂小针管眼霜怎么用下面提供资生堂小针管眼霜使用方法。使用方法于晚间保养流程之最后一步使用,轻取于指尖约一颗珍珠大小的用量(约02克)涂抹于肌肤

    2023-12-13
    17300
  • 去痘痘的方法

    根据痤疮的发病机制,主要的治疗手段为抑制皮脂腺的分泌、控制痤疮丙酸杆菌的繁殖、调节体内激素水平、减轻炎症,对于严重的痤疮需要外用药和口服药联合治疗数月才能完全消除。一般治疗健康的饮食:少吃高糖饮食和奶制品,如薯条、面包、全脂牛奶等,多吃酸奶

    2023-12-13
    16100
  • 一套化妆品多少钱

    一套花西子化妆品要1262元,其中粉底199元、粉饼179元、蜜粉149元、眼线笔69元、眼影259元、睫毛膏99元、腮红89元、唇彩口红219元。化妆品使用需要注意目前国内的消费者购买化妆品选择超市或百货公司等化妆品专柜购买,欧美等发达国

    2023-12-13
    22800
  • 大家千万不要在MZCCO这家淘宝店买鞋子了 发错颜色 还胡搅蛮缠.... 极不负责任....

    那就让淘宝小二介入处理呗,反正你有当时拍下的订单信息,只要提供实际照片就行了。先不要确认收货和评论,如果签收时间快到而小二还没介入,就先按退款。对了,记得要保留好签收快递的单子。针对商家态度恶劣,当小二介入后除了要求商家重新无条件发货并且还

    2023-12-13
    23600

发表评论

登录后才能评论
保存