关于Precision,Recall,ROC曲线,KS,Lift等模型评价指标的介绍

您所在的位置:网站首页 ks值计算公式累计黑样本率-累计白样本率 关于Precision,Recall,ROC曲线,KS,Lift等模型评价指标的介绍

关于Precision,Recall,ROC曲线,KS,Lift等模型评价指标的介绍

2024-07-04 02:13:53| 来源: 网络整理| 查看: 265

1.Precision, Recall

准确率 \(Accuracy = \frac{TP+TN}{TP+TN+FP+FN}\)

精确率(或命中率) \(Precision = \frac{TP}{TP+FP}\),预测为positive中,实际为positive的比例,反映分类器的准确性

召回率 \(Recall = \frac{TP}{TP+FN}\),实际为positive中,预测为positive的比例,反映分类器的完备性

F值为精确率和召回率的调和平均:

\[F1\_Score=\frac{2*Precision*Recall}{Precision+Recall} \]

image

什么情况下更注重Precision, 什么情况下更注重Recall:

注重 \(Precision = \frac{TP}{TP+FP}\),希望 FP 小 -> 希望判断为正实际为负的情况少 -> 垃圾邮件 (垃圾邮件为1,非垃圾邮件为0,希望本不是垃圾邮件但被判定为垃圾邮件的情况越少越好) 注重 \(Recall = \frac{TP}{TP+FN}\),希望 FN 小 -> 希望判断为负实际为正的情况少 -> 信贷风控 (坏客户为1,好客户为0,希望本是坏客户但被判定为好客户的情况越少越好) 2.TPR,FPR

\[TPR (True\ Positive\ Rate) = \frac{TP}{TP+FN} \]

TPR 等价于 Recall,正样本中正确分类的比例(所有真实的1中,有多少被模型成功选出)

\[FPR(False\ Positive\ Rate) = \frac{FP}{FP+TN} \]

FPR,负样本中错分的比例(所有真实的0中,有多少被模型误判为1)

image

3. Sensitivity, Specificity

灵敏度 \(Sensitivity = \frac{TP}{TP+FN}\),等价于 Recall,正样本中正确分类的比例 (Accuracy with respect to positive cases, also called \(True\ Positive\ Rate\)).

特异度 \(Specificity = \frac{TN}{TN+FP}\),负样本中正确分类的比例 (Accuracy with respect to negative cases).

\(FPR=1-Specificity\)

image

4. ROC 曲线

ROC曲线:ROC曲线是一个画在二维平面上的曲线,横坐标是FPR(负样本中错分的比例),纵坐标是TPR(TPR等价于recall,正样本中正确分类的比例)。对某个分类器而言,根据其在测试样本上的表现可以得到一个(FPR,TPR)点对,调整分类时使用的阈值,可以得到一个曲线,就是ROC曲线。一般情况下,这个曲线应该处于对角线的上方(对角线代表的是一个随机分类器)。

image

参考 【建模基础课】ROC、K-S,教你巧妙使用模型评价指标

最理想的模型,当然是 TPR 尽量高而 FPR 尽量低,然而任何模型在提高正确预测概率的同时,也会难以避免地增加误判率,ROC曲线非常形象地表达了二者之间的关系。

对于一个二分类模型,输出的最初结果是连续的(概率);假设已经确定一个阈值,那么最初结果大于阈值时,则输出最终结果为1,小于阈值则输出为0。假如阈值取值为0.6,那么 FPR 和 TPR 就可以计算出此时的取值,标记为一个点,记为 (FPR1,TPR1);如果阈值取值为0.5,同理可以计算出另一个点,记为 (FPR2,TPR2)。设定不同的阈值,就可以计算不同的点 (FPR,TPR),以 FPR 为横坐标, TPR 为纵坐标,把不同的点连成曲线,就得到了ROC曲线。 (阈值为0时,所有预测均会被判为正例,此时 (FPR,TPR)=(1,1);阈值为1时,所有预测均会被判为负例,此时 (FPR,TPR)=(0,0)。即ROC曲线,从原点往后的走势,阈值是逐渐减小的。)

那么问题来了,阈值如何确定?

以Logistic模型为例,模型输出的结果其实是概率,我们通过设定阈值,把概率转化为最终的输出结果0和1。首先出现在我们脑中的直观想法,就是把(0,1)区间进行等分,比如等分为十个区间,那么就可以分别以0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9为阈值,首先计算出根据阈值判定出的0和1有多少,以及“真实为1判定为1”和“真实为0判断为1”的有多少;然后计算出不同的(FPR,TPR)值;最后把点之间进行连线,画出的曲线即是ROC曲线。

下面,我们以某商业银行某时间段内某支行客户的逾期相关数据为例详细说明:P代表此支行的某客户的逾期率(暂且定义为在此时间段内某客户的逾期可能性),Y代表是否为高逾期客户,X是与逾期有关的相关指标,比如行业、企业规模、客户的五级分类等等。

然而,当把这个直观的想法对案例数据付诸实施的时候,我们发现计算出的概率值都落在 [0.0092,0.578] 区间范围内。这种情况下,如果还用上面的“直观想法”(即仍然假定P小于阈值时,判定为0),那么设定阈值为0.1到0.5时,能够计算出不同的 (FPR,TPR) 值;而将阈值取到0.6到0.9时,模型的判定结果为所有的样本就都是0了……so sad!此时计算出的 (FPR,TPR) 值都是 (0,0),ROC曲线的点由11个变成了6个.

面对这个特殊案例,我们的直观想法肯定需要改进。于是最终,我们的实现方法是:

把 (0,1) 区间升级为 (min(P),max(P)); 取值 (min(P),max(P))/10,设定阈值为 (min(P),max(P))*k/10,其中 k=1,2,3,…,9; 根据不同的阈值,计算出不同的 (FPR,TPR) 值。

这时候再画出ROC曲线,就避免了上面的问题。然而小伙伴又发问了:这样在写代码实现的过程中,每次都要和阈值进行比较,计算量比较大,不如先对样本计算出的P值从小到大排序,取前百分之几(比如10%)处的值为阈值,那么排在这之后的判定为0,其他则判定为1。这样计算量就少了很多啦!

于是,我们继续改进阈值的设置,首先把Logistic模型输出的概率从小到大排序,然后取 10%*k(k=1,2,3,…,9)处的值(也就是概率值)作为阈值,计算出不同的(FPR,TPR)值,就可以画出ROC曲线啦。

可是,从小到大排序之后,每次取前百分之几处的值为阈值呢?总共分成10份还是100还是1000份呢?有选择困难症的小伙伴又纠结了,告诉你个办法,别纠结,有多少个模型输出的概率值就分成多少份,不再考虑百分之几!比如Logistic模型输出的概率有214个,那么我们把这214个值从小到大进行排序,然后分别以这214个概率值为阈值,可以计算出214个不同的 (FPR,TPR) 值,也可以画出ROC曲线。

ROC曲线画好后,就要发挥用处!对于一个模型一组参数可以画出一条ROC曲线,此时最优的阈值是什么呢(即以什么阈值为准,去最终划分为0,1)?TPR和FPR是正相关的,也就是说,正确判定出1的数量增加时,必然要伴随着代价:误判为1的FP也增加。

从ROC曲线上也可以反映出这种变化,从 ΔTPR>ΔFPR 到 ΔTPRΔFPR;到后面(即阈值慢慢接近0时),曲线比较平缓,TPR增长得慢,FPR增长得快,有ΔTPR0.3 模型预测能力较好 0.2~0.3 模型可用 0~0.2 模型预测能力较差

通常来讲,KS>0.3即表示模型有较好的预测准确性。

另一种评价标准:

ks值 含义 >0.75 模型能力高但疑似有误,建议对计算、假设、数据等进行严格的检查 0.6~0.75 模型能力非常强 0.5~0.6 模型能力很强 0.4~0.5 模型能力良好 0.2~0.4 模型能力较好


【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭