标签错误会破坏基准的稳定性,然而,令人没想到的是,大多数机器学习中使用的10个主流基准测试集普遍存在标签错误。比如,把“狮子”标记成“猴子”,把“青蛙”标记成“猫”。

众所周知,机器学习数据集的标记并不是完全正确的,但是目前还没有系统的研究来量化机器学习数据集是否存在大量错误。MIT和亚马逊的研究人员近期就尝试了这项研究。

机器学习数据集包括训练数据集和测试数据集,在以往的研究中,我们主要关注训练数据是否存在系统误差,而忽视了被引用最多的测试数据集。这些测试集是我们用来衡量机器学习进展的基准。

在这项研究中,MIT和亚马逊的研究人员通过算法识别验证了10个常用的测试集中确实存在普遍的标签错误,并进一步确定了它们如何影响ML基准的稳定性。这10个数据集包括:MNIST、CIFAR-10、CIFAR-100、Caltech-256、ImageNet、QuickDraw、20news、IMDB、Amazon、AudioSet,它们不仅涉及图像数据集,还包括了文本、音频数据集。比如AudioSet是音频数据集,20news、IMDB和Amazon是文本数据集。

下图就展示了一些被错误标记的样本。比如在CIFAR-10中的一张“青蛙”的图片被标记成了“猫”。

图像数据集的标签错误示例

所有10个ML数据集上的所有标签错误演示如下:

在这个网站里,可以通过选择数据集和特定类别来查看被错误标记的数据。网站中相当详尽地列出了所有他们找到的标签错误,可谓是像素级找茬了。

相关链接:https://labelerrors.com/

比如,当选中ImageNet和Tiger Cat时,我们能看到ImageNet将老虎标记成了虎猫。

虎猫的真实模样:

研究人员将相关成果发表在论文“Pervasive Label Errors in Test Sets Destabilize ML Benchmarks”上,我们接下来简单介绍一下论文的主要内容。

1

主要发现

(1)ML测试集中的错误有多普遍?

研究人员估计10个数据集的平均错误率为3.4%,例如2916个标签错误在ImageNet中占比6%;39万个标签错误在亚马逊评论中占比4%。此外,即使在MNIST数据集——已被成千上万的同行评审用于ML研究的基准测试,在其测试集中也包含了15个(人类验证的)标签错误。

(2)哪个ML数据集错误最多?

QuickDraw测试集的错误标签达到了500万个,约占整个测试集的10%。

(3)高容量模型更容易过拟合错误标记数据

高容量/复杂模型(例如ResNet-50)在含错误标记的测试数据(即传统测量的数据)上表现良好,低容量模型(如ResNet-18)在手动更正标记的数据上有更好的表现。

这可能是高容量模型在训练时过度拟合训练集的错误标签,或在调整测试集上的超参数时过度拟合测试集所导致的结果。

(4)多少噪声会破坏ImageNet和CIFAR基准测试的稳定性?

在含有更正标签的ImageNet上:如果错误标记的示例仅占6%,那么ResNet-18的性能表现将优于ResNet-50。在含有更正标签的CIFAR-10上:如果错误标记的示例的占比为5%,那么VGG-11的性能表现优于VGG-19。

传统意义上,ML从业者需要根据测试的准确性来选择部署模型。通过这项研究,研究者指出,在正确标记的测试集上判断模型可能更有用。因此,研究者提出了几个建议:

  • 更正测试集标签

  • 测试数据集是否受到不稳定基准的影响

  • 考虑对带有噪声标签的数据集使用更简单/更小的模型

2

研究方法

那么,这些错误是怎么被发现的呢?主要分为两个步骤,即算法识别和人工验证。

置信学习

在所有10个数据集中,研究人员首先通过置信学习算法进行初步识别标签错误(准确率可达54%),然后再通过众包的形式进行人工验证。需要说明的是,由于置信学习框架不与特定的数据模式或模型耦合,它支持在多种数据集中发现标签错误。

置信学习(CL)已成为监督学习和弱监督中的一个子领域,用于:

  • 描述标签噪声

  • 查找标签错误

  • 学习噪声标签

  • 发现本体论问题

CL 基于噪声数据剪枝的原理,通过计数对噪声进行评估,并对实例进行排序以进行置信训练。

从上图可以看出,CL 需要两个输入:

  • 样本外预测概率(矩阵大小:类的样本数)

  • 噪声标签(矢量长度:示例数)

出于弱监督的目的,CL 包括三个步骤:

  • 估计给定噪声标签和潜在(未知)未损坏标签的联合分布,以充分描述类条件标签噪声

  • 查找并删除带有标签问题的噪音示例

  • 去除训练误差,通过估计潜在先验重新加权实例

关于置信学习的更多细节,可以查看这篇博客:

https://l7.curtisnorthcutt.com/confident-learning

研究人员曾经用置信学习在2012 ILSVRC ImageNet训练集中发现的标签错误示例。

他们发现,这些错误可分为以下三类:

  • 多标签图像(蓝色):图像中有两个或两个以上标签。

  • 本体论问题(绿色):包括“是”或 “有”两种关系,在这些情况下,数据集应该包含其中一类。

  • 标签错误(红色):存在比给定类标签更适合某一示例的类标签。

人工验证

接下来是人工验证。研究人员基于算法识别的错误标签,进一步采用众包平台Mechanical Turk展开了研究。在三个(Caltech-256、QuickDraw和Amazon Reviews)含大量错误标签的数据集中,研究人员随机检查了部分样本(分别是8.6%、0.04%、0.02%),对其它数据集则对所有识别到的错误标签进行检查,如下表所示。(注意,由于ImageNet测试集不公开,所以这里使用的是ILSVRC 2012 ImageNet验证集)

研究者向验证人员展示了这些错误标记的数据,并询问他们,这些数据的标记应该是:(1)给定标签,(2)CL预测标签,(3)上述两个标签都对,(4)两个标签都不对。

为了协助验证人员,验证的界面中还展示了原标签类别和CL预测类别的训练集示例,如下图所示。

Mechanical Turk的工作界面显示了CIFAR-100的一个示例(图片带有给定错误标签“ cat”)。界面中会展示错误类别“cat”的训练集示例,以及CL预测类别“frog”的训练集示例。

如下表所示,Mechanical Turk验证确认了普遍存在的标记错误,并对标签问题的类型进行了分类。

这些修正是否全部都对呢?并不是。在某些案例中,验证人员也会同意错误的标签。由于研究人员只验证了一小部分数据集,所以检测到的错误标签可能也只是一小部分。

最后,研究人员还提供了清洗过的测试集:

https://github.com/cgnorthcutt/label-errors/tree/main/cleaned_test_sets

这些清洗版测试集纠正了大部分的标签错误。

研究人员表示,希望未来的基准测试能够使用这些改进的测试数据,而不是原来含有错误标签的数据集。

参考链接:

  • https://www.reddit.com/r/MachineLearning/comments/mfsn18/r_pervasive_label_errors_in_test_sets_destabilize/

  • https://l7.curtisnorthcutt.com/label-errors

  • https://l7.curtisnorthcutt.com/confident-learning

重磅!DLer-CVPR2021论文分享交流群已成立!

大家好,这是CVPR2021论文分享群里,群里会第一时间发布CVPR2021的论文解读和交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

???? 长按识别,邀请您进群!

AI 模型性能上不去?这真的不怪我,ImageNet 等数据集每 100 个标签就错 3 个!...相关推荐

  1. 这个 AI 模型火上 GitHub 热榜第一,在线修复照片

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) AI 正在对照片编辑产生重大的影响,但结果是还存在很大分歧. 支持者说,人工智能释放了新的艺术历年,减少了创作者花在单调工作上的 ...

  2. HuggingGPT:一个ChatGPT控制所有AI模型,自动帮人完成AI任务

    最强组合:HuggingFace+ChatGPT --HuggingGPT,它来了! 只要给定一个AI任务,例如"下面这张图片里有什么动物,每种有几只". 它就能帮你自动分析需要哪 ...

  3. HuggingGPT火了:一个ChatGPT控制所有AI模型,自动帮人完成AI任务,网友:留口饭吃吧...

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 最强组合:HuggingFace+ChatGPT -- HuggingGPT,它来了! 只要给定一个AI任务,例如"下面这张图片里有什么 ...

  4. 数据集大小与模型性能的敏感性分析

    [翻译自 : sensitivity-analysis-of-dataset-size-vs-model-performance] [说明:Jason Brownlee PhD大神的文章个人很喜欢,所 ...

  5. [当人工智能遇上安全] 1.人工智能真的安全吗?浙大团队外滩大会分享AI对抗样本技术

    您或许知道,作者后续分享网络安全的文章会越来越少.但如果您想学习人工智能和安全结合的应用,您就有福利了,作者将重新打造一个<当人工智能遇上安全>系列博客,详细介绍人工智能与安全相关的论文. ...

  6. 「AI不惑境」网络深度对深度学习模型性能有什么影响?

    https://www.toutiao.com/a6703349467061420557/ 大家好,这是专栏<AI不惑境>的第二篇文章,讲述模型深度与模型性能的关系. 进入到不惑境界,就是 ...

  7. 【AI不惑境】网络深度对深度学习模型性能有什么影响?

    大家好,这是专栏<AI不惑境>的第二篇文章,讲述模型深度与模型性能的关系. 进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考.如果说学习是一个从模仿,到追随,到创造的过程 ...

  8. 最大的ai计算机模型,Microsoft构建了世界排名前五的超级计算机,用于在Azure上训练大型AI模型...

    [TechWeb]据国外媒体报道,5月20日,微软在年度开发者大会Build 2020上宣布,它将建造世界排名前五的超级计算机. Microsoft 微软表示,它与非营利性人工智能组织OpenAI独家 ...

  9. 【AI不惑境】网络宽度对模型性能有什么影响?

    大家好,这是专栏<AI不惑境>的第三篇文章,讲述模型宽度与模型性能的关系. 进入到不惑境界,就是向高手迈进的开始了,在这个境界需要自己独立思考.如果说学习是一个从模仿,到追随,到创造的过程 ...

最新文章

  1. 寻找最大的K个数(上)
  2. 淘宝大数据之路【转】
  3. 字节(byte)简介
  4. 零基础也可以实现“机器同传翻译”!
  5. 【Python学习笔记】异常处理try-except
  6. 关于LaaS,PaaS,SaaS一些个人的理解
  7. InnoDB还是MyISAM?
  8. arm9 中断向量 重定位_关于STM32中断向量表的位置 、重定向问题
  9. 软件测试--selenium脚本编写注意点(二)
  10. 【VMCloud云平台】SCOM配置(十五)-启用SCOM日志审计(ACS)
  11. python 画蝴蝶_python画蝴蝶曲线图的实例
  12. CentOS7.6下设置mysql服务开机启动
  13. am335x sd卡启动系统参数设置
  14. AI新星丨普林斯顿陈丹琦
  15. CCF计算机软件能力认证试题练习:201903-2 二十四点
  16. KANO 模型——卡诺模型
  17. 标准盒模型与怪异盒模型的区别
  18. 2021真无线耳机推荐,必须了解的真无线蓝牙耳机
  19. (无美国卡)如何进行美国号码是否可正常接收短信的验证,解决方案详见内文...
  20. 03-元素定位-基本

热门文章

  1. hdu 5534(dp)
  2. 公众号第三方平台开发 获取 component_verify_ticket
  3. linux高可用集群(HA)原理详解
  4. 计算机加入域后远程桌面无法登陆域账户
  5. 关于Linux前后台程序切换
  6. Linux下锁用户与解锁问题
  7. Source Insight 经典教程
  8. 职场,18个细节决定成败[转载]
  9. html获取子节点数量,Selenium-webdriver在JavaScript中获取子元素数
  10. pip install models ModuleNotFoundError: No module named ‘base‘