1.不平衡数据集的评估指标有哪些?

评估指标1:recall,Precision,F-score,其中F-score是两者的中和,一般认为F-measure越高,分类器的性能越好;
Precision就是提交给用户的结果里边,究竟有多少是对的;
Recall是一共有这么多的有用结果(包括真正的正样本和负样本),系统究竟能判定出来多少是有用的(能够检出多少?),或者反过来说,我们究竟丢了多少有用的。这两个数是成对出现,单独出现没有意义。为什么这么说?一个例子是我可以轻轻松松将recall提高到100%,那就是不管用户查询啥,我都把系统内所有的文档都给他,这样肯定没丢东西,但是用户也没法得到的好的结果。
但是我们还是希望有一个数能够衡量系统的性能,否则系统A的precision比系统B高,但是recall却比系统B低,那么我们就不太好选了。所以综合Precision和Recall,我们得到一个F Score

**评估指标2:mAP **
AP衡量的是学出来的模型在每个类别上的好坏,mAP衡量的是学出的模型在所有类别上的好坏,得到AP后mAP的计算就变得很简单了,就是取所有AP的平均值。
目标检测中的mAP是从信息检索中的mAP借鉴过来的。
在信息检索中,Average Precision,就是对一个Query,计算其命中时的平均Precision,而mean则是在所有Query上去平均。
回到我们目标检测中的mAP,这个概念是PASCAL VOC比赛中所明确的metric。它的意思是输出的结果是一个ranked list,里边每一个元素包含了类别、框的信息,以及confidence,这个confidence就用来排序。有了排序,就可以计算AP了,然后再针对所有分类,取一个mean,就得到了mAP。这里为何要排序呢?是因为每一个框有一个confidence,mAP作为评估指标,需要考虑confidence进来。比方说我给出一个框,说我有99%的信心这里有一个猫,结果这里没有,相比我给出一个框,说我有10%的信心这里有一个猫,结果也没有,这两个框的penalty和reward不能一样的。因为99%信心说有,结果没有,那就说明这个系统很有问题。反之,假如我给出一个框,99%的信心说有一个猫,然后真有猫,相比10%信心说有猫,结果也是有猫,这两个框也不一样。也就是越“靠谱”,reward越大。什么叫靠谱?靠谱的意思是信心足的时候,一般结果正确。所以我们根据confidence进行排序之后,就应该给排名靠前的结果,也就是confidence比较大的一些更大的权重。所以才会有ranked list。或者可以理解为,我有一个query,查询的内容是,系统中的图片里猫都在那儿?那么这个就肯定需要ranked list了。

值得一提的是在2010年之前,VOC比赛用的AP计算方法并不是上边所述的计算方法,而是对interpolated 的那个图均匀取11个点,[0.0 0.1 0.2 … 1.0]然后求平均。后来才成上边所述的AP计算方法。

评估指标3:接受者操作特征曲线(ROC)
以假正率为x轴,以真正率为y轴做出的曲线。
AUC即ROC特征曲线下面的面积,AUC越大分类器性能越好。最后说说AUC的优势,AUC的计算方法同时考虑了分类器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器作出合理的评价。例如在反欺诈场景,设非欺诈类样本为正例,负例占比很少(假设0.1%),如果使用准确率评估,把所有的样本预测为正例便可以获得99.9%的准确率。但是如果使用AUC,把所有样本预测为正例,TPRate和FPRate同时为1,AUC仅为0.5,成功规避了样本不均匀带来的问题。

2.不平衡数据集的常用的处理方法?

(1)增强数据集,获取更多的数据(2)重新采样,针对小类数据进行过采样,大类数据进行欠采样(3)人造数据,进行属性随机值采用(4)改变算法,增大小类数据的权值,减小大类数据的权值。或者做异常值处理将小类数据作为异常点,从而转化为异常检测问题,将最后将是一个大类分类器。以两类问题为例 , 假设正类是稀有类 , 并具有 更高的错分代价, 则分类器在训练时, 会对错分正类样本做更大的惩罚 , 迫使最终分类器对正类样本有更高的识别率 .如Metacost和Adacost等算法。

不平衡数据集评价指标及常用解决方法相关推荐

  1. 小目标检测常用解决方法

    小目标检测常用解决方法 1 定义 通用的定义来自 COCO 数据集,定义小于 32x32 pix 的为小目标. 2 小目标检测的难点 可利用特征少 现有数据集中小目标占比少 小目标聚集问题 首先小目标 ...

  2. win10 不能查看其它电脑共享文件夹常用解决方法

    win10 不能查看其它电脑共享文件夹常用解决方法 问题描述 解决方法一: 解决方法二: 解决方法三: 原文链接: 问题描述 同一局域网呢,其它系统可以访问到win10系统的共享文件夹,win10 网 ...

  3. arcgis gp 选择图层_【干货】ArcGIS的一些常用解决方法

    原标题:[干货]ArcGIS的一些常用解决方法 1.ArcMap突然打不开了或者崩溃: 查看安全软件(例如360安全软件的拦截),是不是误删了ArcGIS相关文件. 2.ArcMap一些功能突然不能用 ...

  4. 实用技能:DNS故障分析及常用解决方法

    由于计算机无法直接识别我们输入的域名,所以必须通过DNS解析环节将域名翻译成可由计算机识别的IP地址,才能完成整个访问过程.如果DNS发生故障就无法将域名正确指向对应的IP地址,进而无法实现通过域名访 ...

  5. 非平衡数据集的机器学习常用处理方法

    定义:不平衡数据集:在分类等问题中,正负样本,或者各个类别的样本数目不一致. 例子:在人脸检测中,比如训练库有10万张人脸图像,其中9万没有包含人脸,1万包含人脸,这个数据集就是典型的不平衡数据集.  ...

  6. 《动手学深度学习》手动导入数据集产生错误的解决方法

    动手学深度学习 书本网页版 https://zh.gluon.ai/chapter_preface/preface.html b站视频讲解 https://space.bilibili.com/209 ...

  7. 百面机器学习 #2 模型评估:07 过拟合和欠拟合及其常用解决方法

    如何有效地识别"过拟合"和"欠拟合"现象,并有针对性地进行模型调整,是不断改进机器学习模型的关键. 过拟合 模型对于训练数据拟合呈过当的情况 反映到评估指标上, ...

  8. 哈希冲突常用解决方法

    文章目录 1.基本概念 2.解决哈希冲突的方法 2.1 开放寻址法 2.1.1 线性探查法 2.1.2 平方探查法 2.1.3 双散列函数探查法 2.1.4 伪随机探查法 2.1.5 小结 2.2 链 ...

  9. 编程题总结 链表问题常用解决方法

    链表问题 前言 链表基本操作 链表创建 头插法 尾插法 节点遍历 节点删除 双指针法 链表中的倒数k个结点 解题思路 解题代码 分割法 链表分割 解题思路 解题代码 遍历与创建链表结合 链式A+B 解 ...

最新文章

  1. python集合用法详解(创建、添加(add()、update())、删除(remove()、discard()、pop())、查找(in、not in))
  2. python编译安装没有c扩展_为什么在安装simplejson时得到“C扩展无法编译”?
  3. docker 安装mysql_docker|docker安装mysql数据库
  4. 用matlab的毕业设计,毕业设计课题: 用 MATLAB.ppt
  5. SetupAPI简介与设备管理
  6. GD32F450以太网(1):ETH 外设接口简介
  7. Tools-06 WinDbg快速入门使用——查找蓝屏原因,解决蓝屏!
  8. 从零使用okhttp和gson解析聚合数据的新闻头条API
  9. TabControl控件在左侧绘制tabPage页面
  10. freemarker如何获取当前时间或者时间戳?
  11. 解决ValueError: bad input shape (xxxx, x)
  12. 51 nod 1625 夹克爷发红包【贪心、二进制枚举】
  13. 制作一个带rEFInd引导菜单的WinPE启动光盘
  14. 在线支付系列【20】微信支付服务商介绍
  15. 使用ROSE寻找超级增强子
  16. php lcg_value与mt_rand生成0~1随机小数的效果比较
  17. 爱聊语音聊天室为什么用不了摄像头?
  18. selenium之 浏览器导航栏的三个按钮(back、forward、refresh)
  19. mongodb切片问题
  20. linux下代理上网设置

热门文章

  1. 计算机报名照片不能小于20kb,公务员考试:上传20KB电子照片难倒不少考生
  2. 潜入浅出,java多线程到底是个什么东东?面试中应该注意哪方面多线程的知识?
  3. 第四章第二节数据资产盘点-数据资产盘点方法伦
  4. 12个有趣的c面试题目
  5. 软件测试项目实战案例分解,跟着我一步一步操作【人力资源管理系统】
  6. 图像处理中涉及的灰度图、彩色图以及深度图概念
  7. Canvas编程练习:20几行js代码实现雷达扫描动画效果
  8. 玩头条整整20天了,发的内容只有头条,已有差不多250元的收益了
  9. Unity添加自发光材质
  10. 怎么修复计算机硬件,Win10有哪些硬件诊断工具 硬件出现问题如何查看修复