扒出了3867篇论文中的3万个基准测试结果，他们发现追求SOTA其实没什么意义

视学算法报道

编辑：蛋酱、张倩

转载自公众号：机器之心

在追求 SOTA 之前，研究者们或许更应该认真审视「基准」本身。

在基准数据集上比较模型性能是人工智能领域衡量和推动研究进展的重要方式之一。研究者通常基于模型在基准数据集上的一个或一组性能指标进行评估，虽然这样可以快速进行比较，但如果这些指标不能充分涵盖所有性能特征，就可能带来模型性能反映不充分的风险。

目前我们还不清楚这会在多大程度上影响当前的基准测试工作。为了解决这个问题，来自维也纳人工智能与决策研究所的研究者对过往 3867 篇论文中机器学习模型的性能指标进行了分析，所用数据均来自机器学习开放平台「Papers with Code」。

研究结果表明，目前用于评估分类 AI 基准任务的绝大多数指标都有一些缺陷，无法充分反映分类器的性能，特别是用于不平衡的数据集时。

论文链接：https://arxiv.org/ftp/arxiv/papers/2008/2008.02577.pdf

在这次分析中，研究人员查看了 2000 年到 2020 年 6 月期间发表的 3867 篇论文中的 32209 个基准结果，这些结果来自 2298 个数据集。他们发现，这些研究总共使用了 187 个不同的 top-level 指标，其中最常用的指标是「准确率（Accuracy）」，占据基准数据集的 38%。第二和第三常见的指标是「精度（Precision）」、「相关实例在检索到的实例中的占比」和「F 值」（即精度和召回率的加权平均值）。

除此之外，就涵盖自然语言处理的论文子集而言，三个最常见的标准是 BLEU 评分（用于摘要和文本生成等）、ROUGE 评价指标（视频字幕和摘要）和 METEOR（问答）。

研究者表示，超过三分之二（77.2%）的已分析基准数据集中仅使用了一个性能指标，一小部分（14.4%）有两个 top-level 指标，6% 的数据集有三个指标。

论文中提到，这些指标还存在一些不合规的地方，例如将「area under the curve」简称为「AUC」。「area under the curve」是用来衡量准确率的标准，可以根据其绘制的内容分成不同的类别：如果绘制的是精度和召回率，就是 PR-AUC；如果绘制的是召回率和假阳性率，就是 ROC-AUC。

同样的，有几篇论文提到了自然语言处理的基准 ROUGE，但未指出使用的是哪种变体。

除了不一致的问题，还有很多论文中使用的基准都是有问题的。准确率通常被用于评估二元和多元分类器模型，当处理不平衡的语料库，并且该语料库在每个类的实例数上存在很大差异时，就不会产生有意义的结果。例如，如果给定的「类别 A」占所有实例的 95%，那么，即使模型把所有实例都预测为「类别 A」，也还是能达到 95% 的准确率。

精度和召回率也是有局限性的，因为它们仅关注分类器预测为正（positive）的实例或者真正例（True Positives）。二者都忽略了模型精准预测负实例的能力。至于 F 分数（F-score），有时它们给精度的权重比召回率大，为偏向预测占绝对优势类别的分类器提供了具有误导性的结果。

在自然语言处理领域，研究者重点介绍了 BLEU 和 ROUGE 等基准测试的问题。BLEU 不会考虑到召回率问题，也不会与人类对机器翻译质量的判断相关联，并且 ROUGE 没有充分涵盖依赖大量 paraphrasing 的任务，比如说包含许多不同发言者的生成式摘要和抽取式摘要，像会议记录这种。

在所有分析的论文中，都没有使用更好的度量替代方法。例如 Matthews 相关系数、Fowlkes-Mallows 指数，这些度量方法能够解决准确率和 F 分数指标中的一些缺点。实际上，在 83.1% 使用了「准确率」top-level 指标的基准数据集中，没有任何其他的 top-level 指标，而在 60.9% 的数据集中，F 值是唯一的指标。自然语言处理领域的指标也是如此，被证明与人类跨任务判断强相关的 METEOR 仅使用了 13 次，用来评估生成文本与「正常」语言用法契合程度的 GLEU 仅出现了 3 次。

在论文中，研究者也提到了，分析预印本论文而不是科学期刊接收论文可能会影响到研究结论。但有一点是没有疑问的：当前用于评估 AI 基准任务的大多数指标都可能存在无法充分反映分类器性能的问题，尤其是在和不平衡数据集一起使用的时候。

越来越多的学者在呼吁，应该将重点放在人工智能的科研进展上，而不是在基准上取得更好的性能。谷歌大脑团队的前成员 Denny Britz 在今年六月的一次采访中表示，追求 SOTA 不是最明智的做法，因为存在着太多令人困惑的变量，更适合像 OpenAI、DeepMind 等资金雄厚的实验室去攻克。

同时，他也提到：「实验室缺乏资金也许是一件好事，这迫使研究者进行深入思考并找到成本更低且可行的替代技术。」

参考链接：https://venturebeat.com/2020/08/10/researchers-find-inconsistent-benchmarking-across-3867-ai-research-papers/

转载请联系机器之心公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

扒出了3867篇论文中的3万个基准测试结果，他们发现追求SOTA其实没什么意义相关推荐

罗永浩“真还传”再出番外篇，被执行1800万，交个朋友回应来了…
近日,罗永浩再成被执行人,需要偿还18533340元,执行法院为深圳市福田区人民法院,而这个案件是因一起合同纠纷引起的. 早在2019年,罗永浩就公开承认了自己6亿的债务,从此,罗永浩就开始各种&qu ...
近20年3867篇AI论文大调研：有缺陷的指标被滥用，好的指标被忽视
来源:AI科技评论本文约5400字,建议阅读6分钟. 论文调查告诉你评估机器学习模型中的不足. "用于评估AI和机器学习模型的常用指标不足以反映这些模型的真实性能",来自维也纳医 ...
sql 修改时间正价 2天_“熬夜3天，修改17遍，我终于写出了1篇稿费2万的稿子”...
"熬夜3天,修改17遍,我终于写出了1篇稿费2万的稿子" -斜杠少年老白- 前几天和朋友们一起喝茶,席间有一位小友,98年的,叫麦子.朋友介绍说,麦子曾经还上过我的课程,这让我备感 ...
500个爆文标题_我研究了999篇100万+爆文，终于发现这10条标题规律！
易撰文章想要"爆",标题一定要妙! 标题是文章的眉目,是文章内容和读者情感之间的第一个接触点,是让人一见钟情的因子. 一个好的题目,能激起读者点击阅读的兴趣,有着眉目传神之妙用. ...
奥运会上刷新亚洲记录的211高校副教授苏炳添论文被扒出，网友：膜拜大神！...
8月1日,在东京奥运会上,苏炳添跑出中国体育历史的新篇章! >>>> 中国速度惊艳世界! 在男子100米半决赛中,他以个人最好成绩9秒83,创造新的亚洲纪录.决赛中,他以9秒9 ...
面试了 15 位来自 985/211 高校的 2020 届研究生，思考许久，熬夜赶出了这篇文章...
前段时间,我面试了15位2020年毕业的计算机相关专业的研究生,他们都是来自四川地区985.211高校,校名如雷贯耳. 因为我有参与到设计校招题的工作中.所以我是技术一面的面试官之一. 这篇文章我本来 ...
独家 | 我们扒出了这家中国创业公司，竟比苹果iPhone X早两年推出黑科技，还不用借助深度摄像头
关心AI的人们都关注了此号☝☝☝ 于是,没有iPhone X,我也可以在我仅2000元的安卓机上玩转黑科技了. 记者:鸽子在我威威天朝,表情包早已泛滥在各类社交应用程序中,如今,咱可以玩点新的包了. ...
独家！扒出腾讯新高管余总的真面目！
若治发自凹非寺量子位出品 | 公众号 QbitAI 大意外! 今早腾讯突然宣布一项全新的高管任命. 主流财经网站也发出快讯. 这篇任命的阅读量迅速突破10万+,引发了外界大量的关注.腾讯此次高 ...
如何用 RFM 模型扒出 B 站优质 UP 主？| 附实战代码
作者 | 远辰责编 | 郭芮不管前浪还是后浪,能够浪起来的才算是好浪. 相信大家最近都被号称"浪里白条"的b站刷了不止一次屏.这次咱们先不谈价值观,主要从数据的角度,扒一扒让b ...

扒出了3867篇论文中的3万个基准测试结果，他们发现追求SOTA其实没什么意义

扒出了3867篇论文中的3万个基准测试结果，他们发现追求SOTA其实没什么意义相关推荐

最新文章

热门文章