透析混淆矩阵(举例说明)

2024-07-01 20:02| 来源: 网络整理| 查看: 265

混淆矩阵（confusion matrix）衡量的是一个分类器分类的准确程度。理解其概念本身容易理解，但一些特定术语易被混淆。

混淆矩阵的基本模式：在这里插入图片描述这里就给大家举一个例子来更好的说明一下混淆矩阵的各种情况

在这里插入图片描述

观察混淆矩阵，可得如下结论：

示例是一个二元分类问题，产生两种可能的分类：“是”或者“不是”。当预测一个事件是否发生时，“是”意味着该事件已经发生，而“否”则相反，该事件没有发生。

该模型对这个事件进行了100次预测。

在这100次预测结果中，“是”有45次，“否”有55次。但实际上该事件发生了40次。

重要概念：

真阳性（True Positive，TP）：样本的真实类别是正例，并且模型预测的结果也是正例

真阴性（True Negative，TN）：样本的真实类别是负例，并且模型将其预测成为负例

假阳性（False Positive，FP）：样本的真实类别是负例，但是模型将其预测成为正例

假阴性（False Negative，FN）：样本的真实类别是正例，但是模型将其预测成为负例

混淆矩阵延伸出的各个评价指标： 1.正确率（Accuracy）：被正确分类的样本比例或数量

(TP+TN)/Total = (35+50)/100 = 85%

2.错误率（Misclassification/Error Rate）：被错误分类的样本比例或数量

(FP+FN)/Total = (5+10)/100 = 15%

3.真阳率（True Positive Rate）｜召回率（recall）：分类器预测为正例的样本占实际正例样本数量的比例，也叫敏感度（sensitivity）或召回率（recall），描述了分类器对正例类别的敏感程度。

TP/ actual yes = 35/40 = 87%

4.假阳率（False Positive Rate）：分类器预测为正例的样本占实际负例样本数量的比例。

FP/actual no = 10/60 = 17%

5.特异性（Specificity）：实例是负例，分类器预测结果的类别也是负例的比例。

TN/actual no = 50/60 = 83%

6 精度率（Precision）：针对预测结果的，预测为正的样本中真正的正阳本所占比例

TP/predicted yes = 35/45 = 77%

7.流行程度（Prevalence）：正例在样本中所占比例。

Actual Yes/Total = 40/100 = 40%

8 通过率模型判断为好样本的数占总样本数比例 Actual Yes/Total = 40/100 = 40%

9 坏账率模型判断为好样本中真正的坏样本所占比例。 FP/FP+TP

关键术语：

阳性预测值：其术语概念与精度非常类似，只是在计算阳性预测值考虑了流行程度。在流行程度为50%的时候，阳性预测值（PPV）与精度相同。

空错误率：当模型总是预测比例较高的类别，其预测错误的实例所占百分比。在上述示例中，空错误率为60/100 = 60%，因为如果分类器总是预测“是”，那么对于60个为“否”的事件则可能进行错误预测。该指标可用于分类器间的性能比较。然而，对于某些特定的应用程序来说，其最佳分类器的错误率有时会比空错误率更高。

F值：F 值即为正确率和召回率的调和平均值。在这里插入图片描述

Roc曲线：即接收者操作特征曲线(receiver operating characteristic curve)，反映了真阳性率（灵敏度）和假阳性率（1-特异度）之间的变化关系。Roc曲线越趋近于左上角，预测结果越准确。

【本文地址】

公司简介

联系我们