论文解读:Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge

论文下载:https://arxiv.org/pdf/2009.05831v2.pdf

  本文旨在从非结构化文本中抽取常识知识,利用语境的常识知识辅助提升MRC

相关工作:
  常识问答(Commonsense Question Answering) 一般是指对常识知识理解的基础上根据给定的问题进行回答。例如多项选择题“鸟儿在__上飞(海/地/天)”,根据我们的常识可以知道鸟儿是在天上飞。这类问答不同于垂直领域问答,常识知识很难通过一般的语言模型准确预测,需要有专门的常识知识库来辅助完成。
  现如今常识问答多借助于常识知识库(Commonsense Knowledge Graph, CSKG),一般地会将知识库中的三元组 ( h , r , t ) (h, r, t) (h,r,t) (分别表示头实体、关系、尾实体)生成合成样本(synthetic data),并通过预训练的方式让模型学习到常识知识。基于CSKG一般都是将三元组转换为一个文本。本文不同于这些方法,其直接从正常的对话中抽取常识知识。

动机:

  • 常识知识通常表现为三元组,包括两个实体(phrase)和关系。如果使用预定义的关系,通常indispensable,因此我们考虑不显式使用预定义的关系,而使得实体关系变得隐式化。一种方法是将同时存在这两个实体的文本作为实体关系的约束,因此我们将实体对以及对应的文本统称为contextualized knowledge;
  • 将口头(verbal)和非口头(nonverbal)信息作为phrase pair
  • scripts可以作为抽取语境常识知识的来源;
  • 提出简单但有效的两阶段fine-tuning策略来使用大规模弱标注语料;

Contextualized Commonsense Knowledge Extraction

  verbal和nonverbal的信息都对面对面交流很有用。本文旨在介绍如何抽取verbal-nonverbal pairs并抽取对应的context。选用的script为电影电视节目对话稿,并抽取四种类型的语境知识。最终得到场景知识,记做 ( v , c , n ) (v, c, n) (v,c,n) ,其中 v v v 和 n n n 表示phrase、 c c c 表示context。可以通过下面的例子来理解这个任务:

Instance Generation

  该部分考虑如何将抽取到的常识知识 ( v , c , n ) (v, c, n) (v,c,n) 转化为多项选择形式,并扩展到其他机器阅读理解任务(MRC,抽取式问答等)。
  从 c c c 中去掉 n n n,将 v v v 视为question,去掉 n n n 的 c c c 视为reference document, n n n 则视为正确答案。其他错误的选项(distractor)则可以通过负采样方法。每个三元组只生成一个文本。

  基本方法如下图所示:

  • 首先从非结构化语料中(对话)抽取相应的常识知识;
  • 然后将常识知识转换为多项选择问答模式;
  • 对于另外几个候选项,则通过distractor generation随机生成;
  • 作者提出两阶段微调(two-stage fine-tuning),如上图,根据抽取的语境常识知识构建的weakly-labeled data,将其与公开数据集C3结合起来训练模型,然后在第二阶段只在C3数据集上训练;或者先只在weakly-labeled data上训练,再在C3上训练。

第一阶段(stage1)
  给定一个已标注数据集(labeled data,记做 V V V)和启发式生成的weakly labeled data(记做 W W W)。将weakly labeled data分为多份,记做 W i W_i Wi​。
  对于每一个 W i W_i Wi​,其与V结合起来形成一个数据集,并在该数据集上训练一个teacher model,最小化损失函数记做:

  其中 h k ( t ) h_k^{(t)} hk(t)​ 表示第 t t t 个数据集的第 k k k 个选项是正确的(取值为1), h h h 为一个one-hot向量。
  根据每一个teacher model T j T_j Tj​ 以及初始的 h h h(one-hot向量),通过 λ \lambda λ 加权,均可以得到第 t t t 个样本第 k k k 个选项的soft label vector:


  基于此,训练一个student model,最小化 ∑ t ∈ V ∪ W L 2 ( t , θ S ) \sum_{t\in V\cup W}L_2(t,\theta_{\mathcal{S}}) ∑t∈V∪W​L2​(t,θS​)。


  用到了相应的soft label vector,相当于teacher model的结果对student训练各个样本时进行了指导。

第二阶段(stage2)
  直接将训练好的student model,在labeled data上微调,最小化目标函数 ∑ t ∈ V L 2 ( t , θ S ) \sum_{t\in V}L_2(t,\theta_{\mathcal{S}}) ∑t∈V​L2​(t,θS​)。

论文解读:Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge相关推荐

  1. 论文阅读Neural Machine Reading Comprehension: Methods and Trends

    神经机器阅读理解:方法和趋势 目录: 摘要 机器阅读理解(MRC):让机器根据给定的内容回答问题. 近几年随着深度学习的出现吸引了广泛的注意. 根据近几年这方面的研究,做了一个全面透彻的综合概述. 通 ...

  2. [论文阅读]Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction

    摘要 方面情感三元提取(ASTE)旨在识别评论句子中的方面及其相应的意见表达和情绪,是细粒度意见挖掘中的一项新兴任务.由于 ASTE 由多个子任务组成,包括意见实体提取.关系检测和情感分类,因此适当地 ...

  3. NLP-阅读理解:“阅读理解”综述(Machine Reading Comprehension, MRC)【完形填空、多项选择、抽取式(答案片段抽取)、生成式(自由作答)】《机器阅读理解数据集》

    <原始论文:Neural Machine Reading Comprehension: Methods and Trends> 一.阅读理解概述 所谓的机器阅读理解(Machine Rea ...

  4. 解读ACL 2020的一篇paper (Recurrent Chunking Mechanisms for Long-text machine reading comprehension)的源码

    本文的目的是解读Recurrent Chunking Mechanisms for Long-text machine reading comprehension这篇论文的GitHub上的代码. 我会 ...

  5. 【论文阅读】Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension

    Recurrent Chunking Mechanisms for Long-Text Machine Reading Comprehension 论文:https://arxiv.org/abs/2 ...

  6. Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction 论文阅读

    Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction 南开大学 AAAI 2021 论 ...

  7. [论文笔记-1]Aspect-based Sentiment Analysis as Machine Reading Comprehension

    题目.作者 一.Abstract 1. 现有的研究通常通过堆叠多个神经模块来处理基于方面的情感分析,这不可避免地导致严重的错误传播 2. 本文提出了MRCOOL: MRC-PrOmpt mOdeL框架 ...

  8. Read + Verify: Machine Reading Comprehension with Unanswerable Questions 论文阅读笔记

    原文链接:http://cn.arxiv.org/pdf/1808.05759 Read + Verify: Machine Reading Comprehension with Unanswerab ...

  9. 初识机器阅读理解(Machine Reading Comprehension)

    机器阅读理解任务理解与文献查阅 参考博客: https://www.jiqizhixin.com/articles/2018-11-26-10 https://hanxiao.github.io/20 ...

最新文章

  1. linux平台 一个简单的helloworld动态库的制作与使用
  2. 洛谷——P1548 棋盘问题
  3. ArcGIS几种数据格式2
  4. PHP实现多服务器session共享之NFS共享
  5. java 程序执行后 强制gc_GC 设计与停顿
  6. JavaWeb(十七)——JSP中的九个内置对象
  7. 使用MetaMask实现转账交易时附带Input Data数据
  8. c# 从一组数中随机抽取一定个数_Python随机模块22个函数详解
  9. 成功演示的关键步骤(三)
  10. 受 SQLite 多年青睐,C 语言到底好在哪儿? 1
  11. 【渝粤教育】国家开放大学2019年春季 0755-22T学前儿童艺术教育 参考试题
  12. 涨跌停计算器_股票涨跌停计算器
  13. 精美的拟态个人主页源码
  14. 图灵奖得主--Yoshua Bengio再获全球级荣誉
  15. TeamViewer三种许可证的区别是什么?
  16. wangeditor光标乱跑,回车换行又返回来问题
  17. Android AccessibilityService 辅助功能
  18. npm报错 443(error : getaddrinfo enotfound registry.npmjs.org registry.npmjs.org:443)
  19. 小程序开发——页面背景色设置
  20. 计算机二级Python大题

热门文章

  1. 转:十年总结(二):压力指数,只要不被压垮,压力就是动力
  2. 基于控件核心技术探讨---金阳光自动化测试Android(2)---2013年5月
  3. jsp include中文乱码
  4. drawstring 文本居中_c# – 使用DrawString将单个角色居中
  5. 2. 将代码工程部署到云应用服务器(阿里云、腾讯云、新浪云等)
  6. Oracle-添加列(字段)与注释
  7. 标准网络推广优势,网络推广的主流方法
  8. Linux图形显示系统之DRM(wiki)
  9. 恋爱婚姻法则与职场规则
  10. 网络书签外链发布的注意方法