大数据文摘出品
编译:啤酒泡泡、橡树_Hiangsug

一只名叫亚里士多德的人工智能刚刚通过了美国八年级的科学测试,上周,这条新闻占据了美国多家新闻网站的首版。

美国八年级大概相当于国内初二,初二小朋友的科学测验有多难呢?

要回答这个问题,我们先来一起看两道美国八年级的科学测试多选题。

1、人体中能够协同完成某一项具体机能的组织被称为:
A.an organ
B.an organism
C.a system
D.a cell

2、以下哪一种变化最有可能导致某一区域的松鼠数量减少?
A.捕食者的数量减少
B.松鼠内部的竞争减少
C.可获取的食物减少
D.森林火灾数量的增加

很显然,这两道题分属两类不同类型。第一题属于知识点题,只要认真背过就能答得上来;第二道则属于逻辑推理题。

多数小朋友可能更愿意回答第二题这种逻辑推断的题目,但对于人工智能来说,情况可能恰恰相反。

人工智能做八年级卷子,选择题正确率超90%

上周三,坐落于西雅图的著名实验室“艾伦人工智能研究所”全新发布了一款名为“亚里士多德(Aristo)“的人工智能系统,它正确地回答了超过90%的八年级的科学测验题,并在十二年级的考试中获得了80%以上的准确率。

这款能够通过测试能力的人工智能表明,研究人员在几个月中便取得了巨大的进展,人工智能系统可以理解语言并能模拟人类的决策逻辑。

Aristo的设定是只用来作答多项选择题。它参加了几场纽约考生的标准考试,只不过艾伦研究所去除了那些包含图片和图表的题目,回答这些问题需要额外的技能——将语言理解和计算机视觉逻辑相结合的能力。

有些测试问题只需要一些信息提取的能力,比如上文中的第一题,这种题目是人工智能擅长的。

然而科学测试不是那种只靠记住规则就能完成的事情,它需要使用逻辑来建立联系。比如第二题,森林火灾数量的增加会直接导致松鼠的死亡,或食物来源的减少使它们无法繁衍。人工智能需要理解这样的逻辑,才能回答正确这道题目。

其实在Aristo成功之前,AI已经挂过无数次科。

2016年,700多名计算机科学家参加了一场设有80,000美金(折合人民币约57万元)的挑战赛,题目是“八年级科学测验”——不过答题人不是这些科学家,而是他们建立的人工智能系统。

结果出乎意料,考生全盘“挂科”,就连最成熟的人工智能系统都无法答对超60%的题目,其语言水平和逻辑水平远远赶不上八年级的学生。

学霸Aristo的背后是Bert

2016年,当AlphaGo击败人类职业围棋选手李世石后,许多人认为人工智能的转折点来临。

然而,华盛顿大学前教授、现任艾伦人工智能研究所的技术总监的Oren Etzioni博士的兴奋之情很快平息了。他说,人工智能并没有它看上去那么先进。他提到了艾伦研究所之前参加的那场比赛,一个八年级的科学测试就难住了人工智能系统。

艾伦研究所迅速改良了之前的工作,着手于打造Aristo,其速度超出了包括Etzioni博士在内的许多专家的预期。

Aristo的应试能力来自于神经网络,近几年以来,世界顶尖的人工智能实验室,如Google,Facebook等企业的实验室都利用神经网络进行自然语言处理(NLP),它可以通过分析人类的文章和书籍来习得语言的复杂变化。

去年年底,谷歌AI团队发布了BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%,MultiNLI准确度达到86.7%等。

BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,模型的主要创新点在于模型的预训练,用Masked LM和Next Sentence Prediction两种方法分别捕捉语句的表述。


Bert模型架构

Etzioni博士很快就意识到,可以在Bert基础之上建立Aristo系统,他们利用Bert模型对覆盖面极广的问题和答案数据进行训练。

Aristo根据题目的不同类型采用了八种类型的agent来回答问题——包括数据库中查找答案的agent、检查相关概念列表的agent、执行定性推理的agent等。

每个agent都会对多项选择答案产生正确与否的概率,而Aristo会对不同的选项的概率进行加权以选择最可能的一项或多项,该模型通过多轮训练和校准进行优化。

例如,有一个问题是:当块体熔化时,铁块中的铁原子是如何受到影响的?
A.铁原子增加质量。
B.铁原子含有较少的能量。
C.铁原子移动得更频繁。
D.铁原子体积增加。

为了回答这个问题,Aristo先查找出“铁原子随着热量增加而运动加快”的知识,将术语“融化”与“热量”联系起来,将术语“快”与“频繁”联系起来,并将C评定为正确选择。

结合不同的解决问题的方法为Aristo将测试分数从2016年的大约60%提高到今年的91.6%扫清了道路。在12年级考试中,该模型得分率为83.5%。


Aristo不断提升的答题准确率

究竟是学霸还是学渣?能用就好!

部分科学家对Aristo取得的进展并没有抱以太大热情,他们认为机器离完全掌握自然语言还有很长一段路要走,更不用说真正像一个人类学生那样思考了。

“我们不能拿这项技术和真正的学生以及他们的逻辑推理能力相比。”已在微软参与多项类似技术研发的研究员Jingjing Liu讲道。

Liu和她的微软同事曾尝试建立一个可以通过GRE考试的系统——GRE是美国研究生入学的必考测试。

Liu表示,处理语言部分是可行的,但是建立可用于处理数学问题的逻辑推理能力就是另外一回事了。“这实在是一项太有挑战性的工作了。”

但从商业角度来看,从互联网搜索引擎到医院的文档记录系统,Aristo的这一进展将对很多产品和服务产生广泛影响。

根据纽约时报的报道,Etzioni博士表示:“这项技术会带来重要的商业成果。目前我能自信的说,你们将会看到这一进展带来的新一代产品,可能来自创业公司,也可能来自大公司。”

“这项技术仍处于初级阶段,”Fast.ai的技术总监Jeremy Howard说道,“但是其技术的潜能是无限的,我们离充分发掘这项技术的潜能还很遥远。”

OMT,Aristo也是艾伦研究所创始人的遗愿

艾伦研究所命名自微软的联合创始人保罗•艾伦(Paul Allen),他在2013年成立了艾伦人工智能研究所,希望能够着手解决人工智能发展的重大问题。

把“八年级科学测验”作为题目的人工智能科学挑战赛,其实源自于这位西雅图亿万富翁的一个私心:他希望研究人员设计出一个足够聪明、能够通过八年级科学考试的人工智能程序。

自创立后,艾伦研究所的研究人员便一直致力于建造这只聪明的人工智能程序——Aristo。

这不是一件容易的事,五年来研究者们尝试了无数次,但是一直没有达到艾伦希望的效果。

然而去年10月份,还没有来得及见证Aristo的诞生,享年65岁的艾伦去世了。

在不同的电子邮件中,Aristo的作者Etzioni和Clark都对保罗·艾伦表示了敬意。当被问到这样的系统艾伦是否就可以满意的时候,两人都表示:“不会。”


Etzioni和Clark在艾伦人工智能研究所

“保罗会非常高兴,但不会让我们满足于现有的荣誉,”Etzioni说, “他会问:NLP的下一个重要阶段是什么?”

“我可以想象他会说‘恭喜你!但下一步是什么?”

模仿人类逻辑,首个BERT模型AI通过初二科学考试!研究人员:完成了老板遗愿相关推荐

  1. 模仿人类逻辑,首个BERT模型AI通过初二科学考试!研究人员:完成了老板遗愿...

    大数据文摘出品 编译:啤酒泡泡.橡树_Hiangsug 一只名叫亚里士多德的人工智能刚刚通过了美国八年级的科学测试,上周,这条新闻占据了美国多家新闻网站的首版. 美国八年级大概相当于国内初二,初二小朋 ...

  2. 警惕AI军事间谍!找出导弹基地人类用2.5天,AI只要42分钟

    安妮 千平 编译整理 量子位 出品 | 公众号 QbitAI 就在我们的头顶之上,各种卫星(包括间谍卫星)像狗仔队一样,每天都围着地球疯狂拍下数十TB的照片.这个数量可以说是泛滥了. 每个情报机构都有 ...

  3. BERT模型的优化改进方法!

    Datawhale干货 来源:Coggle数据科学 本文为论文<BERT模型的主要优化改进方法研究综述>的阅读笔记,对 BERT主要优化改进方法进行了研究梳理. BERT基础 BERT是由 ...

  4. NVIDIA研究人员利用AI将标准视频转换为高质量慢动作镜头

    内容来源:ATYUN AI平台 来自NVIDIA的研究人员开发了一个基于深度学习的系统,该系统可以用每秒30帧的视频制作高质量的慢动作视频,超过了旨在实现相同效果的各种方法.研究人员将在本周CVPR会 ...

  5. 模仿人类自动上色!爱奇艺提出动画上色AI模型,每张只需0.7秒 | WACV 2021

    先来看一张特别的"连连看". 图一 上图这5帧幽灵公主的上色画面中,你能找出哪张图是AI画的,哪张是人类画师画的吗? 被难倒了吧?实际上,上边的一段动画上色图中,只有第一帧画面是人 ...

  6. AI正在模仿人类大脑!2021年10篇顶会论文:大脑也在「无监督」学习

    编辑:桃子 小咸鱼 [导读]神经科学会成为人工智能「超进化」的关键吗?只要模拟大脑,神经网络就可以获得相似或相同的智能.近日,神经科学家Patrick Mineault就2021年无监督学习的大脑模型 ...

  7. 智源社区AI周刊No.98:Adept发布行为预训练模型ACT-1;首个扩散模型领域综述发布;PyTorch加入Linux基金会...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 1. Adept推出第一个大模型Action Transformer (ACT-1),可自 ...

  8. 16000亿!谷歌发布人类历史首个万亿级模型 Switch Transformer,中国还有机会赶超吗?...

    新年伊始,大规模预训练模型军备竞赛进入万亿参数时代.  文:梦佳.周寅张皓.贾伟 近日,Google Brain的研究人员William Fedus.Barret Zoph.Noam Shazeer等 ...

  9. 停止对人类的迷恋!AI完全模仿人类大脑是在浪费时间

    有些人认为,人类是按照造物主的形象设计的.当涉及到真正的人工智能(这可能是我们最伟大的发明)时,我们也曾尝试做同样的事情.人工智能的一个典型方法是用数字形式再现人脑.但顶尖科学家表示,灵感将来自其他地 ...

最新文章

  1. 如何在windows 10 x64安装佳能 CP900 驱动
  2. [ARM-assembly]-A64的load/store指令总结
  3. Codeforces 1322D Reality Show (DP)
  4. RocketMQ多Master多Slave模式部署
  5. java ee程序设计师_软件设计师:Java EE开发四大常用框架[1]
  6. flex AS中TabNavigator子项后报超出索引 commitProperties解决
  7. discuz! X3.2 自定义后台门户模块模板里的标签
  8. 第十四章:【UCHome二次开发】uchome通用方法
  9. 盒图(boxplot)
  10. JavaSE(8)-细节狂魔:21k字长篇深入理解类和对象
  11. gitbook:node_modules\npm\node_modules\graceful-fs\polyfills.js:287
  12. 【蓝桥杯】【python】数字三角形
  13. 收银机打印数据截取_每天在掏空你账户余额的收银机,你知道它的历史吗?
  14. C语言之__attribute__((visibility(“default“)))等gcc flag讲解(六十二)
  15. python Dataframe 根据某一列的值来删除多行
  16. 新西兰奥克兰发生三车追尾事故 造成一死一伤
  17. 【从入门到精通 项目1】项目经理带你-零基础学习C/C++
  18. Qt知识点梳理 —— 国际化 QtLinguist 应用(2)
  19. MATALB学习五:矩阵的乘方
  20. 在ubuntu上安装nodebb

热门文章

  1. 第五章 大数定律及中心极限定律
  2. 打印表格留标题怎么设置_打印如何添加标题?内容一页打不下?—关于Excel文档打印的那些事-excel打印区域怎么设置...
  3. 百度静态网站全站搜索功能
  4. [渝粤教育] 无锡商业职业技术学院 导游业务 参考 资料
  5. 香鸡排三部曲:完结篇
  6. skimage.io模块读取图片
  7. 猿辅导9-12编程题3道
  8. TC8:UDP_MessageFormat_01-02
  9. 为什么VDI(桌面虚拟化)对于硬核UNIX/Linux工程应用程序是有意义的?
  10. IP签名档PHP源码,简单几步,教你制作自己的显IP签名档