来源:AI科技评论

作者:维克多

人工智能(AI)基准为模型提供了衡量和比较的路径,超越基准,达到SOTA,经常成为顶会论文的标配。同时,有些基准确实推动了AI的发展,例如ImageNet 基准测试对近几年的热潮功不可没。

如今,ImageNet 基准仍然在研究中发挥核心作用,一些新模型,例如谷歌的Vision Transformer在论文中仍然与ImageNet方法进行比较。

但,如果某一基准的分数一直占据榜首,后续没有高质量基准引入,那么这种依靠基准推动发展的“路子”就有问题。

近日,维也纳医科大学和牛津大学的研究人员对AI基准图谱进行了调查,共统计了2013年以来CV和NLP领域的406项任务的1688项基准。发现:很大一部分基准迅速趋于接近饱和,还有一部分基准被搁置;同时,在NLP领域,从2020年开始,新基准的建立减少,方向转向推理或推理相关的高级任务上。

在文中,作者呼吁,未来的工作应该着重于大规模的社区合作,以及将基准性能与现实世界效用和影响相联系。

1

33%的AI基准被“搁置”

从单个基准出发,如上图可以看出基准上的SOTA有三种状态:稳定增长,停滞或饱和,以及停滞后的飞跃。其中,稳定增长代表技术稳定;停滞背后代表缺乏技术进步的能力;而爆发是指技术出现突破。

事实上,近年来,关键领域,如NLP,有相当一部分新基准迅速趋于饱和,或者设计针对特定基准特征过度优化的模型,而这些模型往往无法泛化到其他数据中。

目前,这些现象已经蔓延到相同领域的不同基准中,例如上图,CIFAR-10和CIFAR-100的状态。

同时,数量方面也出现了尴尬的局面,例如《2021年的人工智能指数报告》指出,CV基准数量或许能满足日益增长的任务需求;而NLP模型的增长速度正在超过现有的问答和自然语言理解基准。

Martínez-Plumed等学者分析了 CIFAR-100 和 SQuAD1.1 等 25 个流行 AI 基准背后“故事”,他们发现“SOTA 前沿”由某些长期协作的社区主导,例如美国或亚洲大学与科技公司共同合作的组织。

此外,其他学者分析了大量 AI 基准测试工作中数据集使用和再利用的趋势,他们发现,很大一部分“知名”数据集是由少数高知名度的组织提出,其中一些数据集被越来越多地重新用于新的任务。NLP是个例外,它对新的、特定任务的基准的引入和使用超过了平均水平。

在这项研究中,维也纳医科大学和牛津大学的研究人员表明:饱和和搁置非常常见。总体看来有以下几个趋势:

1.缺乏研究兴趣是导致停滞不前的原因之一;

2.所有基准中的大多数很快就会达到技术停滞或饱和;

3.在某些情况下,会出现持续增长,例如在 ImageNet 基准测试中;

4.性能改进的动态变化并不遵循一个清晰可辨的模式:在某些情况下,停滞阶段之后是不可预测的飞跃。

图注:基准有三种发展趋势:稳定增长,停滞或饱和,以及停滞后的飞跃。

此外,在1688个基准中,只有66%的基准充分被利用,换言之33%的基准被搁置。同时,基准测试的另一个趋势是:被某些既定机构和公司的数据集主导。

2

NLP基准正面向高难度的任务

过去几年,CV领域的基准占据主导地位,但NLP也开始了蓬勃发展。2020年,新基准的数量有所下降,越来越多地集中在难度较高的任务上,例如测试推理的任务,例如BIG-bench和NetHack,前者属于谷歌,后者来自Facebook。

上图是NLP的基准生命周期展示,可以清晰看出,大多数任务的几个主流基准是在2011~2015年间建立的,这期间,也只有少数几个SOTA出现。2016年之后,新基准的建立速度大大加快,在翻译和自然语言建模方面表现最为突出;2018和2019年,分别都针对各种任务建立了大量的基准;2020年是个转折点,新基准的建立减少,方向转向推理或推理相关的高级任务上。

整体来说,当前AI基准的趋势是:来自既定机构(包括工业界)的基准的趋势引起了人们对基准的偏见和代表性的关注;许多基准并不能完全将AI性能与现实世界相匹配,因此,开发少量但有质量保证,涵盖多种AI能力、场景的基准可能是可取的。

最后,研究人员展望,在未来,新的基准应该由来自许多机构、知识领域的大型合作团队开发,如此才能确保建立高质量的基准。

参考链接

https://mixed-news.com/en/are-we-running-out-of-ai-benchmarks/

https://arxiv.org/ftp/arxiv/papers/2203/2203.04592.pdf

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

牛津大学最新调研:AI面临基准危机,NLP集中“攻关”推理测试相关推荐

  1. 新冠轻症也会导致大脑退化,牛津大学最新研究登上Nature

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 新冠轻症对大脑影响又+1. 刚刚,牛津大学在Nature上发表研究成果: 新冠肺炎会导致患者大脑嗅觉.记忆相关区域发生退行性变化. 轻症也不例外. ...

  2. 牛津大学最新 | LUMix:Mixup改进版,几行代码轻松涨点!

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[目标检测]技术交流群 后台回复[LUMix]获取论文!!! 摘要 当使用噪声样本和正则 ...

  3. 牛津大学最新《计算代数拓扑》笔记书

    来源:专知 本文为资源,建议阅读10+分钟 本课程涵盖代数拓扑的基础知识,特别关注与拓扑数据分析相关的计算方面. Week 1: Complexes notes and videos Week 2:  ...

  4. ai取代程序员_你现在从事的程序员还有多久会消失?牛津大学研究员帮你算了算...

    作者 | 思小妞 来源 | LinkedIn(ID:LinkedIn-China) 2013年,牛津大学两位人工智能领域的研究员,Carl Benedikt Frey和Michael A. Osbor ...

  5. 最新综述:关于自动驾驶的可解释性(牛津大学)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨黄浴@知乎 来源丨https://zhuanlan.zhihu.com/p/426573034 ...

  6. 2021首期Nature封面:牛津大学ML算法实现10万高压非晶硅原子的模拟​ | AI日报

    2021首期Nature封面:牛津大学ML算法实现10万高压非晶硅原子的模拟 为了对一般无序结构材料有更深的理解,人们广泛研究了非晶硅在高压条件下的富相行为.然而在和原子打交道的层面上,人们一直需要借 ...

  7. DeepMind Nando(原牛津大学教授)强化学习最新进展,含图文、公式和代码,附102页PPT下载...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送 转自:专知 [导读]在DeepMing任职的Nando de Freitas(原牛津大学 ...

  8. 牛津大学人类未来研究所:万字长文谈AI新职场方向-政策研究

    最近两年,虽然AI这个词语充斥在人类的媒体和生活中,但实际上AI技术的发展才刚刚起步,目前AI能做的事情还非常初级.黑暗森林法则里的"技术大爆炸"不知道何时会突然到来,各种法律.伦 ...

  9. Google Brain与牛津大学主持最新《计算机视觉前沿》报告(146页PPT)

    来源:专知 牛津大学DanielaMassiceti, Saumya Jetley与Google Brain Sara Hooker等人9月13日在Deep LearningIndaba 深度学习大会 ...

最新文章

  1. Citrix XenApp 6.0 发布应用程序时 ICO 错误的解决方法
  2. verilog编译指令
  3. 在vi或vim上查找字符串
  4. String.format()方法的使用
  5. 回拨系统服务器,CISCO接入服务器回拨功能的实现
  6. 视频技术系列 - 2020年超高清视频技术创新实践
  7. 在Windows mobile 5.0下操作INI文件
  8. 测试驱动开发、验收测试驱动开发和行为驱动开发
  9. C/C++静态代码检查工具CodeChecker(一)简介
  10. slice,splice和split的区别
  11. P1827 [USACO3.4] 美国血统 American Heritage
  12. BIM的发展现状与技术优势
  13. numpy多维数组获取指定矩形区域
  14. SQL常用的一些关键字
  15. 前端接收java验证码_在Web项目中手机短信验证码实现的全过程记录
  16. Java连接MySQL数据库并进行简单查询
  17. 面试官都爱问的java模式之建造者模式!!!
  18. 软件考试:计算机组成原理:寻址方式
  19. bandzip和360解压_压缩软件哪家强?
  20. HDLbits笔记-移位寄存器

热门文章

  1. 一道内存分配的面试题后续
  2. 调试,是一件有挑战的事情
  3. Windows环境下的安装gcc
  4. 中希尔排序例题代码_【数据结构与算法】这或许是东半球分析十大排序算法最好的一篇文章...
  5. cocoscreator editbox 只允许数字_用Cocos做一个数字调节框
  6. 线程基础知识_线程生命周期_从JVM内存结构看多线程下的共享资源
  7. 解决后端返回数据中的大数字问题(使用第三方包json-bigint )
  8. PyCharm集成Anaconda3环境下安装 腾讯优图报错 ERROR: Could not install packages due to an EnvironmentError
  9. MapReduce 编程实践:统计对象中的某些属性
  10. LeetCode 568. 最大休假天数(DP)