美国艾伦人工智能研究所(Allen Institute For Artificial Intelligence)的研究人员在一篇新论文中证明,他们设计的AI系统可以在初二科学测试的多项选择题中给出90%以上的正确答案,在高三科学测试中也表现得相当好,正确率超过80%。
这个名为Aristo的AI系统参加了纽约摄政学院科学考试(New York Regents Science Exam,纽约州学生标准会考),但它可以享受某些优待,比如不需要解答涉及查看图表的问题。 尽管如此,研究人员在不同版本和不同年级的考试中测试了该程序,发现其表现相当稳定,绝对能与最好的学生一较高低。
图: AI系统Aristo可在初二科学测试中给出90%以上的正确答案,在高三测试中的表现也相当棒
Aristo展示了AI技术的高速发展历程。 该论文的作者指出,就在2016年,AI领域还没有任何AI系统能够在类似的初二科学考试中获得及格成绩。 但自2016年以来,在AI领域发生了很多事情,尤其是用于这项任务的自然语言处理方面。
研究人员已经开发出新的方法来构建AI,使其能够更好地完成自然语言处理任务,使AI系统能够产生听起来更自然的人类文本,并编写新闻故事或诗歌。 随着AI在生成假面孔或视频、“增强”真实图像以及识别对象和面孔的能力方面变得更加复杂,计算机视觉已经得到了极大的改善。
AI系统已经征服了在线多人战略游戏。 随着投资大量涌入该领域,今年抢眼的项目通常比几年前的项目成本高得多。 现在,进步的浪潮把我们带到了能够在科学测试中击败初二学生的AI系统中。
AI技术的快速发展使许多专家难以预测该领域的未来前景,他们中有些人预测相当于人类水平的AI出现可能只需10年或20年。 但随着AI系统变得越来越强大,它们将带来更多挑战。 当它们达到人类水平的能力时,错误指定或设计不良的程序可能带来灾难性的风险。 不过,这样的结果是令人兴奋的,它们也提醒我们,我们正在AI方面取得惊人的成就,这也许比我们制定AI政策、确保安全速度更快。
对这样的项目的常见的批评是,AI只是反刍信息,而不是真正的思考。 几年前,这似乎是对AI系统所能做的事情的准确总结。 当单词相互关联时,它们可以记住,但却不能回答任何涉及更深层次概念理解的问题。 这种情况一直在改变。 当今最先进的AI系统仍然会犯概念性错误,但已经少了很多。
看看纽约摄政学院科学考试的这些问题(来自艾伦研究所的论文)就可以清楚地看出,要想在这次考试中取得好成绩,你必须做许多类似概念推理的事情:
1)哪种设备能最好地分离铁屑和黑胡椒的混合物?
(1)磁铁(2)滤纸(3)三臂天平(4)伏特计。
2)橡皮筋振动时会产生哪种形式的能量?
(1)化学能量(2)光能(3)电能(4)声能。
3)因为铜属于金属,所以它
(1)在室温下是液态的(2)不与其他物质发生反应(3)是不良导体(4)是良好的热导体。
4)苹果树的哪个过程主要是细胞分裂的结果?
(1)生长(2)光合作用(3)气体交换(4)废物去除。
这些当然不仅仅是关联词汇意义的问题。 持怀疑态度的人仍然可以采取这样的立场,即AI可能只是通过绘制词语之间的关联来解决这些问题: 例如,“铁屑”和“磁铁”,“振动”和“声音”,或者“金属”和“良好的热导体”。
但专注于研究复杂系统的专家梅兰妮·米切尔(Melanie Mitchell)解释称: “语言模型将捕获单词之间的统计关联,使其能够在没有任何真正理解的情况下回答问题。 ”
另一方面,这和我们学习科学时所做的真的有那么大的不同吗? 学习一个概念的大部分就是理解这个概念和你以前学过的其他概念之间存在的某种关系。 目前还不清楚AI正在做的事情与人类正在做的事情有何根本不同。 事实上,AI系统得到的能力越强,给出解释的可能性就越小。
虽然AI取得这样的成就很容易被低估,但也很容易被夸大。 许多媒体用过分夸张的言辞报道了艾伦研究所的论文,这些报道对新的AI系统所具备的的能力做出了曲解。 诸如“这个AI刚刚通过科学测试,可能比初中生更聪明”或“AI现在像初中生一样聪明”这样的标题,远远不够准确。 世界上还没有任何AI系统具有2岁孩童那样的解决问题能力,更不用说媲美初中生了。
像Aristo这样的AI系统属于狭义AI。 它们非常擅长自己的工作,所要做的就是解决一个定义明确、高度具体化的问题。 除了完成多项选择题的科学考试外,Aristo不能解决其他问题。 而正是在这方面,人类依然在计算机面前保持着绝对优势,我们可以将从一个领域获取知识去解决其他领域的全新问题。 不过对于这种优势能够保持多久,我们仍无法确定。
(选自: Vox 作者: Kelsey Piper 编译: 网易智能 参与: 小小)

AI感兴趣的小伙伴,快来加入网易智能社群吧!

和我们一起探讨AI的故事~

网易智能的AI社群有很多种呢~

包括:

AI芯片、医疗AI、金融AI、电商AI、自动驾驶、

教育AI、AIoT、机器人、物流AI、等12个社群哦

快快添加智能菌微信kaiwu_club

说明身份即可加入

我们等着你呦!

“闭着眼睛”过考试,但还没高中生聪明!这个AI咋回事?相关推荐

  1. 让用户闭着眼睛买东西可还行?雷军谈小米的目标...

    5月29日,在2019中国电子商务大会上,小米科技董事长兼CEO雷军再次提及小米一直强调"感动人心,价格厚道的好产品",他表示在零售行业里面最重要的是我们怎么提供感动人心,价格厚道 ...

  2. python数据处理,用于大学生期末考试(还没完全写完,待更新)

    '''要求: ①创建一个csv文件,并向其中写入以下数据第一行为 序号 学号 姓名 成绩学号分别为 001 002 003 004 005 006 007 008 009 010姓名分别为 张三 李四 ...

  3. 计算机学业水平没过怎么办,高中学业水平考试两门没通过还能拿到高中毕业证吗...

    今天早上的时候有同学们问了小编,原因是学业水平考试很快开始了,正因为这样最近关于学业水平考试的问都很多,小编都一一归纳的回答. 这位同学们问到了高中学业水平考试两门没通过还能拿到高中毕业证吗?下面小编 ...

  4. 我的世界java版如何装mod_我的世界考古“初代贝爷生存”?开局3滴血,还没进游戏就要自闭了...

    问:我的世界 史上最困难的一个模组是什么?可能你想到了那个变态的RLCraft,加入了口渴.温度.技能等一系列变态的生存设定.又或者你想到了所谓的"贝爷生存",那个开局只有3颗血量 ...

  5. 樱桃键盘驱动在哪下_闭着眼睛也能买的樱桃轴机械键盘——GANSS GS87C分享

    昨天在社区里面溜达,看到B站发布 China Z-100百大产品榜单,推荐的时候居然看到GANSS GS87C的机械键盘,果然是我没买错,性价比高,价格是真的香~ 有兴趣的可以进去B站看一看,好多可以 ...

  6. 数据的含义还没懂?就别做数据分析了

    "用数据分析,精准定位用户,精准发现用户需求,精准推荐产品"是很多很多地方都在吹的故事. 然而就像儿童故事<咕咚来了>,大家都听说了这个咕咚(精准),可精准到底长啥样, ...

  7. 你在读书日疯狂囤书,却还没学会读书方法 | 阿里大牛带你高效阅读

       来自北京的技术菜鸟张小跳提问:  最近一直在看 JavaScript 红皮书,从去年 9 月开始看的,到现在才慢吞吞看到事件部分.做了学习笔记,也做了简单的 demo,但笔记感觉基本就是在抄书, ...

  8. 考驾照01_驾照还没考的女人,你们有福了!

    从此学车人可以自学自考了 不仅如此,驾照还没考的朋友有福了 驾校考试秘笈,不用看书就能通过!! 暂时不考的也先留着,别等着急的时候没处去 速记方法!!! 1.题目里有"口"的选50 ...

  9. 秋天别来,我还没忘了你

    知道你很快有了新恋情 我有点嫉妒有些安心 关上一扇门转身就能 推开另一扇门走进去 那就是你 在下一个秋天来临 如去年同样月圆之际 有人陪你 谁会陪你 其实我 也开始想要调整自己 只是谁能帮帮我闭上眼睛 ...

最新文章

  1. QGC地面站参数调节
  2. C#中使用SharpZipLib进行解压缩然后进行二进制反序列化
  3. python提供了_Python中 为我们提供了一些独特的解决方案的方法特性
  4. linux 的读写操作(转)
  5. 『转』line-height
  6. 计算机与操作系统基础小结
  7. pandas 根据单号分类_由 “猫捉老鼠”游戏联想的用户分类问题
  8. Mysql索引机制B+Tree
  9. 将来不当科学家,今天不必做科研?
  10. android控件单位,Android控件相对位置及长度单位
  11. 举例说明计算机在六个方面的应用,第六章 计算机应用基础简答题答案.doc
  12. Flink FileSink 自定义输出路径——BucketingSink
  13. 开课吧Java课程之详解文件输出流FileInputStream
  14. vue跨域使用websocket_在vue中使用SockJS实现webSocket通信的过程
  15. CmemDC类 的使用方法
  16. android imagebutton 动画,来自ImageButton的图像没有在Android Studio的模拟器上显示
  17. 决策树实现手写体识别
  18. java 图片缩放 失真_Java图片缩小后不失真的代码(缩略图)
  19. 台式电脑上为什么没有计算机,台式电脑怎么没有声音
  20. 贪心 阿狸和桃子的游戏

热门文章

  1. js实现拖曳排序的插件
  2. 快手小程序计划引入三方服务商:服务开发者需超过10人
  3. 计算机蓝屏分析报告,终于有蓝屏报告了,请帮忙分析一下
  4. ORB(Oriented FAST and Rotated BRIEF) 特征点
  5. 用Delphi + DirectX开发简单RPG游戏
  6. AI电话外呼系统有哪些功能
  7. CAD二次开发(C#)第一个例子
  8. 数据仓库实战(一):数仓分层分域规范
  9. Backup Retention Policies
  10. Python自动化办公:openpyxl教程(基础)