转载公众号 | 南大Websoft


AI能否像人类一样学习掌握科学知识,理解运用常识知识,最终像人类一样参加并通过学科考试?近日,南京大学万维网软件研究组(Websoft)在人工智能评测集OpenBookQA上实现了突破,研发的GenMC模型取得了92%的正确率,首次达到了人类水平。

OpenBookQA是美国艾伦人工智能研究院(Allen Institute for AI)发布的问答技术评测集,由小学科学选择题组成,并提供了与之相关的核心科学事实作为课本。该评测集的目的是通过选择题考试,探究AI学习课本知识,以及在新的场景下利用知识的能力。除了课本知识以外,回答OpenBookQA中的问题还需要具备广泛的常识,这对AI带来了比较大的挑战。

OpenBookQA近年来吸引了包括谷歌、斯坦福等国际顶尖研究机构参与。在目前的排行榜上,由南京大学团队提出的GenMC模型以较显著的优势取得领先,其集成版本更是首次达到了人类在该评测集上的水平。

在OpenBookQA等选择题问答任务中,以往研究可分为两类范式——Text-to-Text范式与Encoder-Only范式。其中,以T5、UnifiedQA为代表的Text-to-Text范式基于encoder-decoder模型,它将问题和所有选项拼接作为输入,以正确选项文本作为生成目标。这类模型的优势是将不同格式的自然语言处理任务都统一构建为文本到文本(Text-to-Text)格式进行联合训练,有利于学习到更多知识。但对于选择题这种分类任务,encoder-decoder模型所学习的生成目标仅是对于输入的拷贝,这导致预训练模型的自然语言生成能力未被充分利用。而以BERT、RoBERTa为代表的Encoder-Only范式则不考虑decoder部分的使用,将问题与每个选项拼接并独立输入encoder,仅依赖于encoder的自然语言理解能力学习和预测。

这两种范式均无法充分挖掘预训练模型decoder中蕴含的丰富知识,对于选择题这种分类任务,如何更自然地用好encoder-decoder模型是一项技术挑战。为此,南京大学团队提出了一种生成增强的选择题问答模型GenMC,更好地结合了encoder的自然语言理解与decoder的自然语言生成能力,在OpenBookQA等选择题问答任务上取得了不错的效果。

GenMC受人类答题行为的启发而设计——先阅读题干,从自己脑海的背景知识中联想可能的解题线索,再带着线索理解和对比选项得出答案。例如问题“生产笔记本的公司所需的主要原料是什么?”,在选出正确答案“树”之前,GenMC能够通过题干生成常识线索 “纸”,作为关联题干中的“笔记本”和正确答案“树”的中间概念,从而帮助模型更好理解题目并作答。具体模型设计上,GenMC由“线索生成器”和“增强阅读器”两部分组成。模型结构如下图所示:

1、线索生成器模块以问题Q作为输入,得到线索的表示HQC。该模块使用完整的encoder-decoder模型对问题Q编码,取encoder最后一层作为问题的表示HQ,并以自回归的方式由decoder生成线索并取其稠密表示HC。为了增强对线索的理解与表示,使用Transformer对HQHC做交互,得到最终的线索表示HQC

2、增强阅读器模块以问题Q和第i个选项Oi作为输入(在开卷设置中,检索文本也作为输入),对选项Oi用线索增强理解后,选择出正确答案。该模块仅用共享参数的encoder部分对问题Q和选项Oi编码,取encoder最后一层输出得到选项的上下文表示HiQO。接着采用dual-attention对HQCHiQO做信息融合,并经Pooling和MLP层得到选项Oi的得分。得分最高的选项被选为答案。

3、训练目标由生成器loss和阅读器loss两部分相加而成。其中,生成器loss以正确答案的文本作为目标,以teacher forcing的方式训练;阅读器loss则通过交叉熵极大化正确选项的概率。

GenMC基于四种不同的基础模型在五个数据集上进行了实验,其答题正确率均显著超越了相同配置的Text-to-Text基线模型。

这项研究成果已被自然语言处理领域的重要国际会议NAACL 2022录用,更多细节可查阅论文及获取源代码:

论文标题:Clues Before Answers: Generation-Enhanced Multiple-Choice QA

论文链接:https://arxiv.org/pdf/2205.00274.pdf

源码链接:https://github.com/nju-websoft/GenMC


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

论文浅尝 | AI回答小学科学问题达到人类水平(OpenBookQA)相关推荐

  1. 论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码

    本文内容源自往期「论文浅尝」,由 PaperWeekly 精选并重新排版整理,感谢 PaperWeekly. ISWC 2018 ■ 链接 | http://www.paperweekly.site/ ...

  2. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  3. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  4. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  5. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

  6. 浅尝则止 - SciPy科学计算

    21. 浅尝则止 - SciPy科学计算 SciPy以NumPy为基础,提供了众多数学.科学.工程计算用的模块,包括但不限于:线性代数.常微分方程求解.信号处理.图像处理.稀疏矩阵处理. 本章适合那些 ...

  7. ###好好好#######论文浅尝 | 基于图注意力的常识对话生成

    论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...

  8. python 三维凸包_浅尝则止 - SciPy科学计算 in Python

    本文节选自作者的<Python编程基础及应用>视频教程.Python编程基础及应用_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com 21. 浅尝则止 ...

  9. 论文浅尝 - IJCAI2022 | 基于自适应虚词增强的小样本逆关系分类

    论文作者:窦春柳,天津大学,研究方向:知识图谱 论文链接:http://arxiv.org/abs/2204.12111 代码地址:https://github.com/DOU123321/FAEA- ...

最新文章

  1. 处理 Oracle SQL in 超过1000 的解决方案
  2. pycharm与python环境配置
  3. springboot数据源不正确_springboot配置多数据源
  4. boost::container模块实现抛出异常
  5. matlab dtft的函数,DTFT的Matlab矩阵计算的理解
  6. python-kafka 常用 api 汇总
  7. iphone 字符串分隔与组合
  8. 平面/UI设计师社区网站集设网|让你作品开始发光
  9. [转载] python 字符串转换long_python整数、字符串、字节串相互转换
  10. 在Mac电脑的输入法中如何开启自动纠正模糊拼音功能?
  11. 修复IOS上滑动HTML界面光标乱跳
  12. 为什么要通过w3c验证.
  13. 9万条弹幕告诉你,《乘风破浪的姐姐》里谁才是真正的C位?
  14. 插画惯用风格_2020年最佳插画家的10种鼓舞人心的插画风格
  15. java代理模式学习笔记
  16. 帧中继环境中NBMA模式下OSPF的配置
  17. 智慧养老、养老运营服务平台、陪护服务、养老院、托养、敬老院、健康管理、日常护理、残疾人管理、线下援助服务、助餐、助洁、助医、生活照料、养生保健、社区养老、居家养老、服务回访、健康数据、Axure原型
  18. 我的linux学习笔记
  19. K-means聚类详解
  20. ntag213和215有什么区别_Ntag213、Ntag215、Ntag216电子标签

热门文章

  1. Win7 x64系统UE增加右键菜单
  2. 计算深度学习评价指标Precision、Recall、F1
  3. c#程序设计 大作业
  4. 强化学习——动态规划(策略评估、策略改进)
  5. linux内核发包工具pktgen
  6. Christine Daaé
  7. vue单页面通过prerender-spa-plugin插件进行SEO优化
  8. 使用OpenCV实现卡通画效果
  9. LabVIEW随前面板缩放前面板的所有对象
  10. VB 抓取网站验证码图片