分类常用的评价指标-二分类/多分类

二分类常用的性能度量指标

精确率、召回率、F1、TPR、FPR、AUC、PR曲线、ROC曲线、混淆矩阵

精确率」查准率 Precision=TP/(TP+FP)

召回率」查全率Recall=TP/(TP+FN)

真正例率」即为正例被判断为正例的概率TPR=TP/(TP+FN)

假正例率」即为反例被判断为正例的概率FPR=FP/(TN+FP)

F1 :
在这里插入图片描述

错误率
在这里插入图片描述

准确率:ACC = 1-e

混淆矩阵在这里插入图片描述

样本失衡时,如何评价分类器的性能好坏?

使用ROC曲线

PR曲线

横轴是Recall,纵轴是Precision

PR曲线的意义
PR曲线可以用来衡量分类性能的好坏,从数值角度来说,PR曲线下的面积越大,分类性能越好,也就是说PR曲线越靠近右上角,性能越好!
我们把PR曲线下的面积称为AP分数。
在这里插入图片描述
好坏的比较
如果说,一条PR曲线完全在另外一条PR曲线之上,则代表其分类性能更好,但是在实际状况中,PR曲线存在着局部的上下波动,也就是说,PR曲线并不能直观的比较出不同分类模型的效果。
PR曲线的两个坐标轴即Recall、Precision分别表示模型对于正样本的查全率和查准率。也就是说PR曲线能够反应正样本的预测状况。

PR曲线的优缺点:

优点
对于类别分布差异敏感,常常用于样本类别不平衡的情况,因为PR曲线变换敏感,并且更加关心正例样本。

缺点
PR曲线对于类别不平衡,图像变换比较明显,除此之外,PR曲线过于粗糙,没办法精确的反应模型的性能。但我们可以从F1值直观的反应出来。

ROC曲线

ROC曲线:ROC空间是一个以
伪阳性率(FPR,false positive rate)为X轴,伪阳率FPR = FP / N
真阳性率(TPR, true positive rate)为Y轴,真阳率TPR = TP / P = recall,

ROC的优点:

可以兼顾正负样本的评估。因为ROC的横轴是FPR,纵轴是TPR,TPR聚焦于正样本、FPR聚焦于负样本,那么这样,ROC曲线成为一个比较均衡的评估方法。
ROC的两个指标都不依赖于具体的样本分布,可以看到TPR中的TP、FN均来自于P,而FPR中的FP和TN均来自于N。那也就是说,无论是P或者N哪一方的激增,都不会影响另外一个指标。
但是PR曲线中却不是,可以看到,FP来自N、TP来自P,易受类别分布的影响
ROC对于类别不平衡,反映到图上并不敏感。PR很敏感。

ROC的缺点:

ROC的优点也就是不随着类别分布而改变,或者说改变很小。这也是他的缺点,因为如果我们需要通过指标观测到类别分布变换带来的影响的话,ROC曲线便不适合。但是PR就很合适,因为PR也会随着类别分布的变换带来明显的变化。但是如果想要比较分类器的性能或者剔除掉类别分布的影响,ROC还是更合适的。
ROC曲线在类别分布不平衡下,表现出过于乐观的评估结果。比如:一个数据集包含20个正例,10000个负例。当前有20个负例预测为了正例,那么 FPR=20/(20+9980) ,如果再有20个负例预测成了正例,此时 FPR=40/(40+9960) 。可见FPR改变并不明显,但是此时精度从0.5降到了0.333。那么这样的变化,在ROC图像上只能带来非常微小的变换,无法直观的看出来。

ROC曲线与PR曲线的比较

ROC曲线和PR曲线都使用了Recall,只不过在ROC中,我们将其称为TPR,并且PR曲线中,TPR作为横轴。而在ROC中TPR作为纵轴。
ROC中曲线越靠近左上角,代表分类性能越好。而PR曲线中,越靠近右上角,代表分类性能越好。
在样本不平衡问题中,PR曲线较于ROC曲线适用范围更广。这是因为在样本不平衡的情况中,我们更关心正样本的分类情况。而在上文中,我们分析过PR曲线更关心正样本的变换情况。

AUC两种定义

AUC就是ROC曲线下的面积,AUC值越大,说明曲线顶点越靠近左上角,那么真阳率就越大于假阳率,那么模型就越可能将正样本排在负样本前面。

从统计特性的角度理解:
AUC等于随机挑选一个正样本和负样本时,模型对正样本的预测分数大于负样本的预测分数的概率。
AUC = P(P正>P负)

AUC与ROC曲线
对于0、1分类问题,一些分类器得到的结果并不是0或1,如神经网络得到的是0.5、0.6等,此时就需要一个阈值cutoff,那么小于阈值的归为0,大于的归为1,可以得到一个分类结果。

ROC曲线(Receiver Operational Characteristic Curve)是以False Positive
Rate为横坐标,True Postive Rate为纵坐标绘制的曲线。

曲线的点表示了在敏感度和特殊性之间的平衡,例如越往左,也就是假阳性越小,则真阳性也越小。曲线下面的面积越大,则表示该方法越有利于区分两种类别。

AUC即为ROC曲线所覆盖的区域面积。
ROC曲线的主要意义是方便观察阈值对学习器的泛化性能影响,所以有助于选择最佳的阈值。ROC曲线越靠近左上角,模型的查全率就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其假正例和假反例总数最少。
在这里插入图片描述

多分类

kappa系数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1487926.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Java代码基础算法练习-数值求和-2024.07.25

任务描述: 现有一串字符(长度不超过255个字符),需对其中的数值字符求和(需转换成整型进行计算)。 解决思路: 输入字符串,循环对每个字符否为数字,转换整型并求和 转换整型有以下的方式 1. su…

当 Nginx 出现请求的重复提交,如何处理?

🍅关注博主🎗️ 带你畅游技术世界,不错过每一次成长机会! 文章目录 当 Nginx 出现请求的重复提交,如何处理?一、理解请求重复提交的来龙去脉二、请求重复提交可能带来的麻烦三、解决方案之“一夫当关”——…

文件包涵条件竞争(ctfshow82)

Web82 利用 session.upload_progress 包含文件漏洞 <!DOCTYPE html> <html> <body> <form action"https://09558c1b-9569-4abd-bf78-86c4a6cb6608.challenge.ctf.show//" method"POST" enctype"multipart/form-data"> …

【YashanDB知识库】yasdb jdbc驱动集成BeetISQL中间件,业务(java)报autoAssignKey failure异常

问题现象 BeetISQL中间件版本&#xff1a;2.13.8.RELEASE 客户在调用BeetISQL提供的api向yashandb的表中执行batch insert并将返回sequence设置到传入的java bean时&#xff0c;报如下异常&#xff1a; 问题的风险及影响 影响业务流程正常执行&#xff0c;无法获得batch ins…

【BUG】已解决:IndexError: positional indexers are out-of-bounds

IndexError: positional indexers are out-of-bounds 目录 IndexError: positional indexers are out-of-bounds 【常见模块错误】 【解决方案】 原因分析 解决方法 示例代码 欢迎来到英杰社区https://bbs.csdn.net/topics/617804998 欢迎来到我的主页&#xff0c;我是博…

HarmonyOS入门-状态管理

View(UI)&#xff1a;UI渲染&#xff0c;指将build方法内的UI描述和Builder装饰的方法内的UI描述映射到界面。 State&#xff1a;状态&#xff0c;指驱动UI更新的数据。用户通过触发组件的事件方法&#xff0c;改变状态数据。状态数据的改变&#xff0c;引起UI的重新渲染。 装…

2024权益商城系统网站源码

2024权益商城系统源码&#xff0c;支持多种支付方式&#xff0c;后台商品管理&#xff0c;订单管理&#xff0c;串货管理&#xff0c;分站管理&#xff0c;会员列表&#xff0c;分销日志&#xff0c;应用配置。 上传到服务器&#xff0c;修改数据库信息&#xff0c;导入数据库…

四、GD32 MCU 常见外设介绍 (7) 7.I2C 模块介绍

7.1.I2C 基础知识 I2C(Inter-Integrated Circuit)总线是一种由Philips公司开发的两线式串行总线&#xff0c;用于内部IC控制的具有多端控制能力的双线双向串行数据总线系统&#xff0c;能够用于替代标准的并行总线&#xff0c;连接各种集成 电路和功能模块。I2C器件能够减少电…

deepin深度操作系统安装教程(完整安装步骤·详细图文教程)

官方下载教程 一、概述 如果您首次使用deepin ISO镜像文件来安装deepin系统&#xff0c;无论您之前是否有安装过Windows电脑系统或者Debian、Ubuntu等其他Linux发行版桌面操作系统&#xff0c;我们都建议您先阅读本文档再安装。安装时&#xff0c;您可以选择只安装deepin系统…

Angular由一个bug说起之八:实践中遇到的一个数据颗粒度的问题

互联网产品离不开数据处理&#xff0c;数据处理有一些基本的原则包括&#xff1a;准确性、‌完整性、‌一致性、‌保密性、‌及时性。‌ 准确性&#xff1a;是数据处理的首要目标&#xff0c;‌确保数据的真实性和可靠性。‌准确的数据是进行分析和决策的基础&#xff0c;‌因此…

思维(交互题),CF 1990E2 - Catch the Mole(Hard Version)

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 E2 - Catch the Mole(Hard Version) 二、解题报告 1、思路分析 考虑每次误判都会让鼹鼠上升一层&#xff0c;相应的&#xff0c;最外层的一层结点都没用了 由于数据范围为5000&#xff0c;我们随便找个叶子…

OSPF概述

OSPF OSPF属于内部网关路由协议【IGP】 用于单一自治系统【Autonomous System-AS】内决策路由 自治系统【AS】 执行统一路由策略的一组网络设备的组合 OSPF概述 为了适应大型的网络&#xff0c;OSPF在AS内划分多个区域 每个OSPF路由器只维护所在区域的完整的链路状态信息 …

微服务实战系列之玩转Docker(五)

前言 在我们日常的工作生活中&#xff0c;经常听到的一句话&#xff1a;“是骡子是马拉出来遛遛”。目的是看一个人/物是不是名副其实。我们在使用docker时&#xff0c;也要看看它究竟是如何RUN起来的。当面试官问你的时候&#xff0c;可以如是回答&#xff0c;保你“一文通关…

prometheus tsdb索引布局及查询流程

prometheus 磁盘布局 采集到的数据每两个小时形成一个block。每个block由一个目录组成&#xff0c;并存放在data路径下。该目录包含一个包含该时间窗口的所有时间序列样本的块子目录、一个元数据文件和一个索引文件&#xff08;将metric_name和label索引到目录下的时间序列&am…

导航不是GPS吗,有人用北斗吗?

在现代生活中&#xff0c;提到导航&#xff0c;人们脑海中最先浮现的往往是GPS。然而&#xff0c;近年来&#xff0c;中国自主研发的北斗导航系统&#xff08;BeiDou Navigation Satellite System, BDS&#xff09;正在迅速崛起&#xff0c;逐步占据全球导航市场的一席之地&…

SQL-REGEX-常见正则表达式的使用

SQL-REGEX-常见正则表达式的使用 在SQL中&#xff0c;正则表达式&#xff08;Regex&#xff09;的使用可以帮助进行更灵活和精确的模式匹配和数据筛选。不同的数据库管理系统对于正则表达式的支持略有差异&#xff0c;但大体都是相似的。 Tips&#xff1a; 模式描述匹配内容…

洗地机哪个牌子好?推荐四款口碑最好的洗地机

在追求高效、便捷的现代居家环境中&#xff0c;洗地机已然跃升为家庭清洁的新风尚。面对市场上琳琅满目的洗地机产品&#xff0c;洗地机哪个牌子好&#xff1f;如何筛选出那些既拥有卓越清洁能力&#xff0c;又兼备智能化操作及高用户满意度的佼佼者&#xff0c;成为了消费者关…

计算机视觉与图像分类:技术原理、应用与发展前景

引言 随着科技的不断进步&#xff0c;计算机视觉逐渐成为了人工智能领域的重要分支之一。计算机视觉旨在让计算机具备“看懂”图像和视频的能力&#xff0c;从而理解和分析视觉信息。作为计算机视觉中的一个关键任务&#xff0c;图像分类涉及将输入的图像归类到预定义的类别中&…

基于Delaunay三角网的边缘检测

1、背景介绍 Delaunay三角网是一种在平面上对一组点构造三角网格的方法&#xff0c;其中任何点都不在由其周围点形成的任何三角形的外接圆内部。这种方法确保了三角形尽可能接近等边三角形&#xff0c;从而避免了狭长的三角形。如下图所示&#xff0c;为利用平面上点集构建生成…

Pytorch使用教学2-Tensor的维度

在PyTorch使用的过程中&#xff0c;维度转换一定少不了。而PyTorch中有多种维度形变的方法&#xff0c;我们该在什么场景下使用什么方法呢&#xff1f; 本小节我们使用的张量如下&#xff1a; # 一维向量 t1 torch.tensor((1, 2)) # 二维向量 t2 torch.tensor([[1, 2, 3], …