新智元报道  

来源:arxiv等

编辑:大明

【新智元导读】如果把中学生的英语阅读理解选择题让AI来做,会做出什么水平?近日,上交大团队训练的“双向协同匹配网络”(DCMN)取得了74% 的正确率。尽管和人类学生相比只能算马马虎虎,但对AI来说,这已经达到了目前的最高水平。

目前,在英语考试的阅读理解上,AI虽然无法击败更有能力的人类学生,但它仍然是衡量机器对语言理解能力的最佳量度之一。

近日,上海交通大学的赵海团队对AI模型进行了超过25000次英语阅读理解测试训练。训练材料和中国现行英语水平考试的阅读理解形式类似,每篇文章大约200到300个词,文后是一系列与文章内容相关的多项选择题。这些测试来自针对12至18岁中国学生的英语水平考试。

虽然这些问题有些可以在文中找到答案,但其中一半以上的题目仍需要一定程度的推理。例如,有些问题会要求从四个选项中选出文章的“最佳标题”。在训练结束后,AI参加了测试,其中包括1400次以前从未见过的考试。综合得分为74分(百分制),优于之前的所有机器测试。

上交大的AI系统可以识别与问题相关的文章相关部分,然后选出在含义上和逻辑上最相似的答案。在测试中排名第二的是腾讯的AI系统,在同一次考试中得分为72分。腾讯的AI学会了比较每个选项中包含的信息,并将不同选项间的信息差异作为提示,在文章中寻找证据。

目前最厉害的AI,阅读理解只能得个C+

尽管在测试中分数处于领先,赵海团队仍在努力提高AI系统的能力。“如果从真人学生的视角来看,我们的AI的表现也就是一般水平,最多得个C+,”他说。“对于那些想进入中国优秀大学的学生来说,他们的目标是90分。”

为了提高分数,团队将尝试修改AI,以便理解嵌入在句子结构中的信息,并为AI提供更多数据,扩大其词汇量。

如何理解人类的语言,一直是AI领域的一个主要问题,因为这种理解通常是不精确的,这个问题涉及机器难以掌握的隐含语境信息和社会线索问题。

卡内基梅隆大学的Guokun Lai表示,目前我们仍不清楚AI在学习我们的语言时会遵循什么规则, “不过在阅读了大量的句子和文章之后,AI似乎能够理解我们的逻辑。”

该研究的相关论文已经发表在Arxiv上,以下是论文的主要内容:

让AI做阅读理解是一项具有挑战性的任务,需要复杂的推理过程。AI需要从一组候选答案中选择正确的答案。本文提出双重协同匹配网络(DCMN),该网络可以双向地模拟通道,问题和答案之间的关系。

与仅就问题感知或选择性文章表示进行计算的现有方法不同,DCMN能够计算文章感知问题表示和文章感知答案表示。为了证明DCMN模型的有效性,我们在大型阅读理解数据集(即RACE)上评估了模型。结果表明,该模型达到了目前AI阅读理解的最高水平。

机器阅读理解和问答已经成为评估自然语言处理和理解领域人工智能系统进展的关键应用问题。计算语言学界对机器阅读理解和问答的一般问题给予了极大的关注。

本文主要关注选择题阅读理解数据集,如RACE,该数据集中每个问题后都带有一组答案选项。大多数问题的正确答案可能不会在原文中完全复现,问题类型和范围也更加丰富和广泛,比如涉及某一段落的提要和对文章作者态度的分析。

这需要AI能够更深入地了解文章内容,并利用外部世界知识来回答这些问题。此外,与传统的阅读理解问题相比,我们需要充分考虑通过文章-问题-答案三者之间的关系,而不仅仅是问题-答案的配对。

新模型DCMN:在文章、问题、答案三者之间建立联系

DCMN模型可以将问题-答案与给定文章内容进行双向匹配,利用了NLP领域的最新突破——BERT进行上下文嵌入。在介绍BERT的原论文中提到,对应于第一输入令牌(CLS)的最终隐藏向量被用作聚合表示,然后利用分类层计算标准分类损失。

我们认为这种方法太粗糙,无法处理文章-问题-答案的三者关系组合,因为这种方法只是粗略地将文章-问题的联系作为第一序列,将问题作为第二序列,没有考虑问题和文章内容之间的关系。因此,我们提出了一种新方法来模拟文章、问题和候选答案之间的关系。

  • 使用BERT作为编码层,分别得到文章、问题和答案选项的上下文表示。

  • 构造匹配层以获得文章-问题-答案三者之间匹配表示,对问题在文章中对应的位置信息与特定上下文匹配的候选答案进行编码。

  • 对从字级到序列级的匹配表示应用层次聚合方法,然后从序列级到文档级应用。

我们的模型在BERT模型的基础上,于RACE数据集上将当前最高得分提高了2.6个百分点,并使用大规模BERT模型进一步将得分提高了3个百分点。

实验及测试结果

在RACE数据集上对模型进行了评估。这个数据集由两个子集组成:RACE-M和RACE-H。RACE-M来自初中考试试题,RACE-H来自高中考试试题。RACE是这两者的结合。我们将我们的模型与以下基线方法进行了比较:MRU(多范围推理),DFN(动态融合网络),HCM(等级协同匹配),OFT(OpenAI 微调语言转换模型),RSM(阅读策略模型)。

我们还将我们的模型与BERT基线进行比较,并实现BERT原论文(2018)中描述的方法,该方法使用对应于第一个输入标记([CLS])的最终隐藏向量作为聚合表示,然后是分类层,最后计算标准分类损失。测试结果如上表所示。

我们可以看到BERT基线模型的性能非常接近先前的最高水平,而大型BERT模型的表现甚至超过了之前SOTA水平3.7%。但是实验结果表明,我们的DCMN模型更强大,将最高得分进一步分别提升了2.2%。

论文及参考链接:

https://arxiv.org/pdf/1901.09381.pdf

https://www.newscientist.com/article/2198333-ai-achieves-its-best-ever-mark-on-a-set-of-english-exam-questions/

最强AI挑战中国英语阅读理解:只得70多分,不如中等生相关推荐

  1. 2021高考汇文中学成绩查询,2021年北京高考英语阅读理解评析(北京汇文中学)...

    2021年北京高考英语阅读理解评析(北京汇文中学)供各位考生参考!2021全国高考时间为6月7日至10日开考,新东方高考网考后发布,请各位考生在考试结束后关注新东方网高考频道. 阅读理解评析 01 渗 ...

  2. 考研英语阅读理解总结

    考研英语阅读理解A部分的四篇文章一般都是来自英美国家一些享有较高声誉的权威报刊杂志,如Newsweek(<新闻周刊>), Now York Times(<纽约时报>), U.S ...

  3. 考试大考博经验谈:考博英语阅读理解

    北冥有鱼,其名为鲲.鲲之大,不知其几千里也:化而为鸟,其名为鹏. 鹏之背,不知其几千里也:怒而飞,其翼若垂天之云.鹏之徙于南冥也,水击三千里,抟扶摇而上者九万里--  --<庄子·内篇·逍遥游& ...

  4. 计算机英语阅读路线,高考英语阅读理解真题解析·计算机运用

    说明:引用此文请注明出处,并务请保留后面的有效链接地址,谢谢! 高考英语阅读理解真题解析·计算机运用 Computer people talk a lot about the need for oth ...

  5. 初中英语多词性单词怎么办_高考英语阅读理解生僻单词太多怎么办?十大招数帮到你...

    英语阅读理解生僻单词太多怎么办?今天,胡老师告诉你猜词十大招数,帮助同学们英语考试拿高分.  01  构词法 阅读中常常会遇到一些由熟悉的单词派生或合成的新词.掌握构词法对猜测词义很有帮助.如:unf ...

  6. asp.net listview 字段太多 滚动条_高考英语阅读理解生僻单词太多怎么办?十大招数帮到你...

    英语阅读理解生僻单词太多怎么办?,今天,库库告诉你猜词十大招数,帮助同学们英语考试拿高分. 01 构词法 阅读中常常会遇到一些由熟悉的单词派生或合成的新词.掌握构词法对猜测词义很有帮助.如:unfor ...

  7. 国家电网电力职称英语计算机网站,国网电力职称英语阅读理解.doc

    国网电力职称英语阅读理解.doc 阅读理解 PAGE PAGE 1 Passage 1 Have you ever seen a moon that looks unbelievably big? T ...

  8. cbecame计算机辅助教育,电子白板辅助下英语阅读理解中长难句教学策略浅析

    摘 要:初中英语阅读教学过程中,如何高效提升长难句教学效果,设计创新教学方法至关重要.在互联网技术下,英语教学理念及教学模式不断创新,为英语教学效率及教学成果的拓展提供可行性思路.本文以电子白板辅助教 ...

  9. 考研英语阅读理解错8个,我今年会不会凉?

    对于篇幅长,生词多的阅读理解题,很多小可爱要么是时间不够用,要么就是不能答对选项,今天我们就来一起分析应该如何提高考研英语阅读理解正确率~ 一.眼脑并用,抓关键词 做阅读时,你的速度应该逐渐提高,给自 ...

最新文章

  1. mybatis基础综合/常见面试题
  2. css 书写记录(兼容性)
  3. ApkTool2.34 打包经验
  4. python后台返回cookie_Django框架设置cookies与获取cookies操作详解
  5. IntelliJ IDEA 安装使用 aiXcoder 智能编程助手
  6. Android Exception 8(Couldn't read row 0, col -1 from CursorWindow)
  7. ArcGIS中KML/KMZ转为.shp文件
  8. 什么是智能门锁,智能门锁主要有哪些优点?
  9. Linux服务器使用网络代理
  10. adb shell settings(系统服务:settings)
  11. c语言日历程序实验报告,万年历实验报告.doc
  12. 【破解三网】iphone5 国行 A1429
  13. linux最全网络监控命令梳理及评测
  14. 复杂多边形的三角剖分
  15. 华为电脑可以升级鸿蒙系统吗,华为电脑现在是鸿蒙系统吗_华为p40升级鸿蒙系统...
  16. 围观 | 互联网大厂食堂PK:工作不是重点,食堂战胜一切!
  17. [转]十分简明易懂的FFT(快速傅里叶变换)
  18. 2019年湖南电网考试备考(计算机专业第一批次)
  19. 微信商城小程序WeiMall
  20. OSPF的DR和BDR

热门文章

  1. JVM 性能调优监控工具
  2. [P4063][JXOI2017]数列(DP)
  3. 果皇的矩阵[matrix]
  4. JZOJ5146:港湾
  5. thread_LockSupport
  6. 微信开发之网页授权获取用户基本信息
  7. Big Event in HDU
  8. 基于Java实现的快速排序
  9. 新手学Linux:在VMware14中安装CentOS7详细教程
  10. VMware12提示 已将该虚拟机配置为使用 64 位客户机操作系统。但是,无法执行 64 位操作。...