大数据文摘出品

来源:venturebeat

编译:千雪

2019年底,Facebook、纽约大学、华盛顿大学和DeepMind的研究人员联合提出了SuperGLUE,这是人工智能的一个新基准,旨在总结多种语言任务的研究进展。

基于一年前推出的GLUE基准,SuperGLUE包含了一系列更难理解的语言挑战、改进的资源和公开的排行榜。

当SuperGLUE刚被推出时,排行榜上表现最佳的模式和人类表现之间有近20个百分点的差距。但截至1月初,有两个模型:微软的DeBERTa和谷歌的T5 + Meena——已经成为第一个超越人类基线的模型

纽约大学数据科学中心(center for data science)助理教授Sam Bowman表示,这一成就反映了机器学习领域的创新,其中包括自我监督学习,也就是让模型从未标记的数据集中学习,并将其应用于目标任务。“这些数据集反映了一些两年前就免费提供的最难监督的语言理解任务,”他说。

“我们没有理由相信SuperGLUE能够检测到自然语言处理的进一步进展,至少不能完全相信。”

但SuperGLUE测试并不是完美的,也不是一种完整的人类语言能力测试。

在一篇博客文章中,DeBERTa背后的微软团队自己指出,他们的模型“绝不可能”达到人类的自然语言理解智能水平。他们说,这都需要继续研究突破,以及用新的基准来衡量它们及其影响。

SuperGLUE

正如研究人员在介绍SuperGLUE的论文中写的那样,他们的基准是一种简单的、难以博弈的衡量标准,用来衡量通用英语理解技术的进步。它包括八个语言理解任务,这些任务来自于现有的数据,并附有一个性能指标和一个分析工具包。

这些任务是:

布尔问题(BoolQ)要求模型对一篇包含问题答案的维基百科短文作出回应。这些问题来自谷歌用户,他们通过谷歌搜索提交问题。

承诺银行(CommitmentBank,CB)任务,是识别来自《华尔街日报》等文本摘录中包含的假设,并确定该假设是否成立。

似是而非的选择(COPA),提供了一个关于博客和摄影相关百科全书主题的前提语句,模型必须从两个可能的选择中确定因果关系。

多句阅读理解(MultiRC)是一个问答任务,每个例子由一个上下文段落、一个关于该段落的问题和一系列可能的答案组成。模型必须预测哪些答案是正确的,哪些是错误的。

利用常识进行阅读理解推理(ReCoRD),模型可以从CNN和每日邮报的文章选择列表中预测出隐藏的单词和短语。在那些选项中,相同的单词或短语可能会以多种不同的形式表达出来,所有这些都被认为是正确的。

识别文本(RTE)对自然语言模型提出了一个挑战,即鉴定一个文本摘录来自于另一个文本摘录的真实性。

上下文中的词 (WiC)为模型提供了两个文本片段和一个多义词(具有多种含义的词),并要求模型确定在两个句子中该词是否具有相同的意思。

Winograd Schema Challenge (WSC),在这个任务中,会给定一些小说中的段落,模型必须回答关于歧义代词的先行词的多项选择题,它是为了改进图灵测试而设计的。

SuperGLUE还试图用带有Winogender的模型来衡量性别偏见。Winogender是指仅因句子中一个代词的性别而内容不同的句子对。然而,研究人员注意到这种方法有局限性,因为它只提供了积极的预测价值:虽然偏差分数低是模型表现出性别偏见的明显证据,但好的分数并不意味着模型没有偏见。此外,它并不包括所有形式的性别或社会偏见,这导致它只是一个粗糙的偏见衡量标准。

为了建立人类表现基线,研究人员借鉴了WiC、MultiRC、RTE和ReCoRD的现有文献,并通过亚马逊的Mechanical Turk平台聘请了crowdwork注释员。每个工人的平均工资是每小时23.75美元,他们先进行了一个简短的培训,然后用说明书和FAQ(常见问题)页面对选定的测试集注释了多达30个样本。

实施改进

谷歌团队没有详细说明是什么改进导致了他们的模型在SuperGLUE上创纪录的表现,但DeBERTa的微软研究人员在今天早上发表的一篇博客文章中详细说明了他们的工作。DeBERTa并不是全新的——它去年开源过——但是研究人员说他们训练了一个包含15亿个参数(模型用来做预测的内部变量)的更大版本。它将以开源的形式发布,并集成到下一个版本的微软图灵自然语言表示模型中,该模型支持Bing、Office、Dynamics和Azure认知服务等产品。

DeBERTa通过蒙面语言建模(MLM)进行预训练,这是一项填空任务,在这项任务中,会教导模型使用蒙面“标记”周围的单词来预测蒙面单词应该是什么。DeBERTa同时使用了上下文词的内容和位置信息,因此它能够识别句子中的“商店”和“商场”。例如“在新商场旁边开了一家新商店”,它能够识别出“商场”和“商店”这两个扮演的不同句法角色。

与其他一些模型不同,DeBERTa解释了单词在语言建模过程中的绝对位置。此外,它还计算模型中转换输入数据的参数,并根据单词的相对位置来度量单词依赖性的强度。例如,DeBERTa会理解“deep”和“learning”两个词相邻出现时的依赖性要比出现在不同的句子中时强得多。

DeBERTa还受益于对抗性训练,这是一种利用对抗性例子的技术,这些例子来源于训练数据的微小变化。在训练过程中,将具有对抗性的例子输入到模型中,提高了模型的可推广性。

微软的研究人员希望下一步继续探索如何使DeBERTa能够概括出新的子任务或基本的解决问题技能,这一概念被称为组合泛化。其中一种方法可能是更明确地结合所谓的组合结构,这就可能需要将人工智能与符号推理结合起来——换句话说,根据数学和逻辑规则来操纵符号和表达式。

微软研究人员写道:“DeBERTa在SuperGLUE上超越人类的表现,标志着通用人工智能的一个重要里程碑。但与DeBERTa不同的是,人类非常善于利用从不同任务中学到的知识来解决一项新任务,而不需要或很少需要特定任务的演示。”

新基准

Bowman说,目前还没有能接替SuperGLUE的新基准。但人工智能研究领域的共识是,未来的基准,特别是语言领域的基准,如果要有用,就必须考虑更广泛的道德、技术和社会挑战。

例如,许多研究表明,流行的基准在评估现实世界的AI性能方面表现不佳。最近一份报告发现,自然语言处理模型给出的答案中有60%-70%嵌入到基准训练集中,这表明模型通常只是简单地记忆答案。另一项对3000多篇人工智能论文的元分析研究发现,用于衡量人工智能和机器学习模型的指标往往不一致,跟踪不规则,信息量也不是特别大。

问题的部分原因在于,OpenAI的GPT-3、谷歌的T5 + Meena和微软的DeBERTa等语言模型,都通过内化公共网络上的例子来学习编写类似人类的文本。而借助电子书、维基百科(Wikipedia)和Reddit等社交媒体平台,他们可以推断出完整的句子,甚至整个段落。

因此,语言模型往往会放大这些公共数据中的偏见;部分培训数据通常来自普遍存在性别、种族和宗教偏见的社区。人工智能研究公司OpenAI指出,这可能导致一些露骨下流的词被放在女性代词附近,“伊斯兰教”被放在“恐怖主义”的附近。其他研究,如英特尔、麻省理工学院和加拿大人工智能倡议CIFAR研究人员在今年4月发表的一项研究,已经发现来自一些最流行模型的高度刻板偏见,包括谷歌的BERT和XLNet、OpenAI的GPT-2,还有Facebook的RoBERTa。米德尔伯里国际问题研究所(Middlebury Institute of International Studies)认为,这种偏见可能会被恶意行为者利用,通过传播错误信息和彻头彻尾的谎言来煽动不和谐,从而使个人变得激进,形成暴力的极右极端主义意识形态和行为。

大多数现有的语言基准测试都无法捕捉到这一点。在SuperGLUE问世两年来的研究结果的推动下,也许未来的研究会更进一步。

相关报道:

https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

微软和谷歌的人工智能,在SuperGLUE基准测试中超越了人类相关推荐

  1. 2017败北清单:人工智能在这些游戏中战胜了人类

    原文链接:点击打开链接 摘要: 20世纪90年代后期,IBM深蓝(Deep Blue)研究了一系列的国际象棋算法,期望于打败当时的世界冠军加里•卡斯帕罗夫(Garry Kasparov).终于,在19 ...

  2. 直播|微软徐一翀:在常识问答中超越人类水平!自注意力与外注意力机制

    本期为青源LIVE第39期线上直播活动,参与直播互动有惊喜

  3. 关于人工智能-微软和谷歌没有告诉你的是什么

    点击英文原文链接 人工智能到底有多少是人工的,多少是手工的? 2018年9月,iFlytek,一家中国技术公司,人工智能的全球领导者(尤其是语音识别软件)在上海举行的技术会议上被指责将人工翻译伪装成机 ...

  4. 图表对比详解:亚马逊、微软和谷歌云的机器学习即服务哪家强

    林鳞 编译自 KDnuggets 量子位 出品 | 公众号 QbitAI 对于大多数公司来说,机器学习是一项复杂而伤神的工作,花销大.对人才要求高.机器学习即服务针对这个痛点应运而生. 什么是&quo ...

  5. 微软、苹果、谷歌、三星……这些区块链中的科技巨头原来已经做了这么多事!...

    作者 | Gareth Jenkinson 译者 | 火火酱 责编 | 徐威龙 出品 | 区块链大本营(blockchain_camp) 在过去几年中,全球最大的几家科技公司一直在共同努力,研究和集成 ...

  6. 百度 ERNIE 在 GLUE 大赛中击败了微软和谷歌

    受中英文差异的启发,ERNIE 的成功表明人工智能研究可以集百家之长. 作者 | Karen Hao 译者 | 弯月,责编 | Elle 出品 | CSDN(ID:CSDNnews) 以下为译文: 本 ...

  7. 亚马逊、微软、谷歌,谁将是5000亿美元云市场的C位?

     关注ITValue,查看企业级市场最新鲜.最具价值的报道! 本文节选/编译自CBInsights平台的文章Here's Why Amazon Is No Shoo-In To Win The $51 ...

  8. 亚马逊加入微软和谷歌的竞赛,推出生成式AI全家桶!

    [CSDN 编者按]在快速增长的生成式AI市场潮流中,亚马逊AWS高调入局,推出大模型和云服务,并发布全免费的AI编程助手! 作者 | 陈静琳       责编 | 屠敏 出品 | CSDN(ID:C ...

  9. IBM、微软、苹果、谷歌、三星……这些区块链中的科技巨头原来已经做了这么多事!...

    作者 | Gareth Jenkinson 译者 | 火火酱 责编 | 徐威龙 出品 | 区块链大本营(blockchain_camp) 在过去几年中,全球最大的几家科技公司一直在共同努力,研究和集成 ...

最新文章

  1. nagios报警不发邮件
  2. 数据流重定向和管道命令, grep, tr,sort, wc, cut,split,tee,sleep(shell 02)
  3. tictoc正方形网络模型_Trick | 分类网络Trick大汇总
  4. vector 源码及使用
  5. java springboot+maven发送邮件
  6. amd r5 m330 linux驱动下载,AMDAMD Radeon(TM) R5 M330 14.502.1014.0000显卡驱动官方正式版下载,适用于win8.1-64-驱动精灵...
  7. UVA10450 POJ1953 World Cup Noise【斐波那契数列】
  8. 如果想成为数据科学家,请学习这3种语言
  9. aix7.1安装12c执行root.sh无法启动ohasd服务案例
  10. steam计算机共享授权,steam共享游戏账号怎么授权
  11. 计算机能力测试在线题库,全国计算机应用能力考试题库及答案2017
  12. javascript实现单例模式
  13. scratch win10 环境搭建
  14. eda交通灯控制器波形输入_(EDA)基于FPGA的十字路口交通灯控制器设计说明书.doc...
  15. Flink SQL Size of the state is larger than the maximum permitted memory-backed state
  16. T3销售成本结转,提示没有生成结转凭证
  17. Memory testing 10----Fuctional RAM Modle------Recovery Fault (RF)
  18. 哇!协议和算法竟然不是一回事!千万别再说错了!
  19. (附源码)小程序记账微信小程序 毕业设计180815
  20. MY SQL 数据库库如何下载以及安装

热门文章

  1. 在两幅图像之间获得正确(最小二乘意义)仿射变换参数affine points via least square method
  2. 图像翻译 相关 跨物种
  3. VTK 无法解析的外部符号的解决办法
  4. TensorFlow入门(二)简单前馈网络实现 mnist 分类
  5. 【硬核书】矩阵代数基础
  6. 有“肌肉”有“血管”!波兰团队耗时5年研发超逼真仿生机械臂,网友:很怪异也很牛掰...
  7. 近期活动盘点:清华严飞大数据探寻中国文脉讲座、2019前沿信息科技创新论坛...
  8. 独家 | 一文读懂Apache Flink技术
  9. GitHub:我开源我自己;CEO:不存在的
  10. 他,16岁辍学创业,如今已身家过亿!今年将实现飞向太空的梦想