admin 管理员组

文章数量: 1087139


2024年4月15日发(作者:生死谍变解说)

模型评估指标AUC和ROC这是我看到的最透彻的讲解

在机器学习中,模型评估指标是用来衡量模型性能的指标,其中AUC

(Area Under Curve)和ROC(Receiver Operating Characteristic)

是评估二分类模型性能的常用指标之一

曲线:

ROC曲线是一种可视化模型分类性能的工具。它以"真正例率"(True

Positive Rate, TPR)为纵坐标、"假正例率"(False Positive Rate,

FPR)为横坐标,通过改变分类阈值绘制出一组点,连接这些点即可得到

ROC曲线。

定义以下概念:

- 真正例(True Positive, TP):实际为正例且被正确预测为正例

的样本数。

- 假正例(False Positive, FP):实际为负例但被错误预测为正例

的样本数。

- 真负例(True Negative, TN):实际为负例且被正确预测为负例

的样本数。

- 假负例(False Negative, FN):实际为正例但被错误预测为负例

的样本数。

TPR定义为:TPR = TP / (TP + FN),表示实际为正例的样本中被正

确预测为正例的比例,也叫做"召回率"(Recall)。FPR定义为:FPR =

FP / (FP + TN),表示实际为负例的样本中被错误预测为正例的比例。

AUC是ROC曲线下的面积,取值范围为[0,1]。AUC越大,说明模型性

能越好。

AUC的直观理解是在所有可能的分类阈值下,正例排在负例前面的概

率。AUC为1则表示所有正例都被正确分类,AUC为0.5则表示模型性能

等同于随机猜测。

AUC和模型性能的关系:

-AUC为1的模型完全正确地分类样本,不存在混淆。

-AUC为0.5的模型等同于随机猜测,没有分类能力。

-AUC小于0.5的模型是完全错误地分类样本,可以通过对预测值取

相反数进行修正。

曲线与AUC的应用:

-用于比较模型性能:当比较两个二分类模型时,可以通过比较它们

的ROC曲线和AUC值来判断哪个模型性能更好。

-用于分类阈值选择:通过改变分类阈值可以在ROC曲线上找到TPR

较高而FPR较低的点,从而选择一个合适的分类阈值。

以肿瘤诊断为例:假设利用机器学习算法对肿瘤样本进行二分类,分

别获得两个模型的预测结果,可以通过绘制它们的ROC曲线来比较性能。

根据ROC曲线来看,较靠近左上角的曲线更能够准确地诊断肿瘤,而AUC

值越大表示模型分类性能越好。

总结:AUC和ROC是评估二分类模型性能的重要指标。ROC曲线可以

直观地展现模型的分类性能,而AUC则量化了模型在分类任务中的性能,

有助于模型选择和分类阈值选择。


本文标签: 模型 分类 性能 曲线