SOTA 排行榜大变天！MIT 研究十个 CV 测试集，平均错误率超 3.4%

转自 | 新智元

来源 | arxiv

编辑 | LRS

如果测试集不靠谱，那测出来的模型性能会靠谱吗？MIT研究了10个流行的CV的数据集，平均测试集的错误率超过3.4%，最多的竟然错误超10%。

「clean code」是机器学习的基础，在公开的数据集取得更好的效果也是发表论文的基础。

众所周知的是，公开数据集并不都是完美的，或多或少都存在标签错误的问题。之前的工作主要关注「训练数据集」中的错误，忽视了「测试数据集」的错误。

MIT在arxiv上传了一篇论文，研究了10个流行的数据集，借助Amazon的众包平台Machine Turk来检验错误率。

通过算法识别并人工验证，发现确实普遍存在标签错误，10个数据集的平均错误率为3.4％

MNIST也会出错？

即使是久经沙场，被无数论文作为基准测试过的MNIST数据集，在测试集中也包含15个（人工验证过的）标签错误。

不过大部分错误都属于有争议的结果，手写体写出来和看起来确实存在较大差距，例如0和6。

CIFAR-100迷惑性的标签

通过自然语言来定义标签，一个问题就是语言的「歧义性」。

下面三张标签中，图一过于抽象，并没有看出来是大象或是什么其他物种。

第二幅图被标注为「碗」，而被纠正为「茶杯」。cup与bowl之间的区别在于用途、大小。而根据图中比例来说，并无法分辨是碗还是杯子。

图三小编觉得更像是桌子，一个带花纹的桌子，可能纠正错了。

QuickDraw数据集有10%都是错的？

QuickDraw共包含了五千万幅画，其中抽样测试集错误率约为10%，也就是说五百万个样例都是错误的。

例如下图中，眼睛被标注为了老虎，灯泡被标注为鳄鱼皮。

第三幅图笔画过于简单，想象空间比较大，数据集给出的标签是落地灯，众包人员认为是回旋镖，但还有许多其他的答案，例如大雁或者其他的具有翅膀的动物。

还有其他离谱的标注，天使被标注成三角形，鸟标注为火炉，苹果标注为衬衫，差的有点大吧？只能说标注人员脑洞开的真的很大！

ImageNet也有5.83%不可信赖

ImageNet的错误分类有许多是动物类的，需要标注人员具有专业知识，能够准确区分各个动物。

花鸡、松鸦、夜莺之间的区分，对于小编来说太难了。

跑车和赛车之间的区别还是比较大的，图一难道不是「玩具车」？

纠正标签有什么作用？

图(a)显示，移除更多的错误标签，能够线性地提高ResNet-18的准确率。

图(b)和图(c)说明，当纠正更多的错误标签时，准确率也会上升。

当数据集中错误标签被纠正后，不同模型之间的排名也会发生较大变化。

人工标注是一个既客观又主观的事情，人在做图像识别任务的时候，也无法达到100%的准确率，错误无可避免。

训练集的错误标签同样会影响到模型在测试集上的表现，错误的标记可能会导致科研人员得出模型在现实世界中性能更佳的错误结论，从而破坏了机器学习系统的基准测试结果。

如何建立一个可依赖的公开数据库，或依赖半监督算法来有效清洗数据，也许是下一步研究方向。

参考资料：

https://l7.curtisnorthcutt.com/label-errors

重磅！DLer-计算机视觉交流3群已成立！

大家好，这是DLer-计算机视觉微信交流3群！欢迎各位Cver加入DLer-计算机视觉微信交流大家庭 。

本群旨在学习交流图像分类、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。希望能给大家提供一个更精准的研讨交流平台！！！

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）

???? 长按识别添加，即可进群！

SOTA 排行榜大变天！MIT 研究十个 CV 测试集，平均错误率超 3.4%相关推荐

SOTA排行榜大变天！MIT研究十个CV测试集，平均错误率超3.4%
视学算法报道来源:arxiv 编辑:LRS 转载自:新智元 [新智元导读]如果测试集不靠谱,那测出来的模型性能会靠谱吗?MIT研究了10个流行的CV的数据集,平均测试集的错误率超过3.4%, ...
Boston和MIT研究人员利用脑电信号实时控制机器人
目录简单介绍脑信号控制机器人相关的知识使用ErrP通信的人机交互实验设计 5大步骤 1)预处理: 2)特征提取: 3)分类器: 4)阈值设置: 5)决策: 结果:初级和次级错误性能结论本分 ...
老司机和驾驶辅助系统相处得如何？MIT研究人员做了个科学研究
安妮编译整理量子位出品 | 公众号 QbitAI 关于带驾驶辅助系统无人车安全性的争吵从未停止. 两方争论的焦点无非是它们减轻了司机的驾驶压力,但又没有轻松到可以放任不管.因为司机的" ...
170亿参数，28项公开测试集SOTA，行业最大的视觉多任务统一大模型来了
本文已在飞桨公众号发布,查看请戳链接: 170亿参数,28项公开测试集SOTA,行业最大的视觉多任务统一大模型来了在5月20日举办的WAVE SUMMIT 2022深度学习开发者峰会上,百度发布了行 ...
2021彻底大变天的教育行业，这一整年都发生了什么？
本文概述:2021年转眼即逝,这一年教育行业可以说是彻底大变天.随"双减"而来的各种政策跟着"万箭齐发",各个教培巨头纷纷倒下或谋求转型,素质教育.职业教育等方 ...
MIT研究团队开发微型低功耗芯片，用于小型无人机导航
内容来源:ATYUN AI平台麻省理工学院的研究人员去年设计了一种微型计算机芯片,专门用于帮助硬币大小的无人机导航,而现在芯片在尺寸和功耗方面都进一步缩小. 该小组由麻省理工学院电气工程与计算机科学 ...
快讯 | MIT研究人员发明新型机器手；人工智能声呐眼镜：可识别唇语，准确率达 95%
一分钟速览新闻点中国工程院院士戴琼海:以人工智能为代表的新兴科技推动全球创新版图重构 GGII:至2027年我国机器视觉市场规模将达到565.65亿元上科大凌盛杰<Adv. Funct. M ...
危害宝宝健康的食品排行榜-大耳朵兔兔
不能吃的食品(危险指数:五颗星) &d9733;&n9733; 蜂蜜原因:据英国相关报道,在过去的25年中,约出现40件婴儿感染肉毒杆菌死亡案例,都与食用蜂蜜有关.这些案例中,病况较 ...
厦大等高校研究人员利用卷积神经网络学习脑电地形图表示进行分类
脑电图(EEG)地形图表征(Electroencephalography topographical representation, ETR)可以监测区域大脑活动,是一种可以用于探索皮层机制和联系的 ...

SOTA 排行榜大变天！MIT 研究十个 CV 测试集，平均错误率超 3.4%

如果测试集不靠谱，那测出来的模型性能会靠谱吗？MIT研究了10个流行的CV的数据集，平均测试集的错误率超过3.4%，最多的竟然错误超10%。

SOTA 排行榜大变天！MIT 研究十个 CV 测试集，平均错误率超 3.4%相关推荐

最新文章

热门文章