论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能
论文笔记整理:吴桐桐,东南大学博士生,研究方向为自然语言处理。
链接:https://www.aclweb.org/anthology/P19-1226/
近年来,机器阅读理解已经逐渐发展为自然语言理解方向的主流任务之一。最近,预训练模型尤其是 BERT,在各项阅读理解任务中取得了不俗的表现。该篇文章沿用了预训练模型+精调的思路,在经典的 BERT 模型的基础上,通过引入知识图谱中的语义信息来增强阅读理解模型感知上下文和知识的能力。不同于 ERNIE(百度),ERNIE(清华),以及 K-BERT(腾讯)等模型在预训练阶段就引入外部知识,该模型设计了 Knowledge Integration 模块,用于在面向任务的精调阶段引入知识。这里的知识特指存在于 NELL 和 WordNet 中的概念及同义词等信息。
本文核心思想在于强调对两个数据源信息的整合(Integration), 即通过预训练模型BERT学习自然语言文本信息,通过预训练的表示学习模型学习知识图谱全局拓扑结构信息,整合的过程也是挑选知识的过程,模型学习的目标之一是学会如何挑选对当前任务有用的知识概念的能力。
如上图所示(来自数据集 ReCoRD),普通的BERT模型在没有美国政权等相关背景知识及低频词汇的语义关系的前提下,很难仅通过段落的字面表达选取正确的答案,只有在我们补充了特朗普和美国政府的关系,以及 sanctions 与ban是近义词之后才能让模型明白问题的含义,从而作出正确的回答。
结构
KT-Bert 中引入知识的基本单元是单词,即文本中的每一个词汇都会去知识库中寻找相关的概念和同义词,并取出已经预训练的 KB embedding 作为知识的候选集。KT-Bert 通过双线性层对文本表示以及知识图谱表示进行关联,也就是利用 attention 机制计算每一条候选知识在当前任务中的贡献程度。
总结
本文模型结构清晰,例证符合推断,同时在标准数据集上的效果提升明显。核心模块 Knowledge Integration 虽然和[1]中的 KBLSTM 比较相似,但的确是一种引入知识的可行方案之一。在零样本、少样本问题,长尾问题,数据不均衡问题等设定下,如何引入知识,在模型的什么位置引入外部知识,引入什么样的外部知识都是值得研究的内容,更进一步的,如何判断是否需要引入知识,引入具体的哪几条知识更有待于我们持续探索。
[1] Yang, B., Mitchell, T., 2017. Leveraging Knowledge Bases in LSTMs for Improving Machine Reading. Association for Computational Linguistics, pp. 1436–1446.
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。
论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能相关推荐
- 论文浅尝 - ACL2020 | 利用常识知识图对会话流进行显式建模
笔记整理 | 韩振峰,天津大学硕士 链接:https://arxiv.org/pdf/1911.02707.pdf 动机 人类对话自然地围绕相关概念发展,并分散到多跳概念.本文提出了一种新的会话生成模 ...
- 论文浅尝 | NumNet: 一种带有数学推理的机器阅读理解模型
论文笔记整理:吴林娟. 来源:EMNLP2019 论文链接:https://arxiv.org/pdf/1910.06701.pdf 开放源码:https://github.com/ranqiu92/ ...
- 论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...
转载公众号 | 浙大KG 论文题目:Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Mode ...
- 论文浅尝 - AAAI2020 | 利用自然语言推断生成人称一致的对话
链接: https://arxiv.org/pdf/1911.05889.pdf 动机 虽然最近几年通过利用社交网络上大量人人交互数据训练开放域对话模型取得了很大的成功,但是这些数据驱动的对话系统仍然 ...
- 论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识
笔记整理:谭亦鸣,东南大学博士生 来源:EACL'21 链接:https://aclanthology.org/2021.eacl-main.284.pdf 概述 本文关注将语言模型(LM)视作一个知 ...
- 论文浅尝 | 基于置信度的知识图谱表示学习框架
本文转载自公众号:PaperWeekly. 作者丨谢若冰 单位丨腾讯微信搜索应用部 研究方向丨知识表示学习 知识图谱被广泛地用来描述世界上的实体和实体之间的关系,一般使用三元组(h,r,t)(head ...
- 论文泛读记录(多模情感分析/探测;厌恶语音探测;属性级情感分析;CVPR2022和ACL2022 三元组/对比学习/视觉语言预训练/机器翻译/预训练模型/机器阅读理解)
文章目录 1.1 CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fus ...
- 论文浅尝 - ACL2020 | 利用知识库嵌入改进多跳 KGQA
论文笔记整理:吴畏,东南大学硕士研究生. 来源: ACL 2020 论文地址: https://www.aclweb.org/anthology/2020.acl-main.412.pdf 开源代码: ...
- 论文浅尝 | Rot-Pro:通过知识图谱嵌入中的投影建模关系的传递性
笔记整理:陈湘楠,浙江大学硕士在读. 研究背景 知识图嵌入模型学习知识图谱中实体和关系的表示,以预测实体之间的缺失链接(关系).它们的有效性深受建模和推断不同关系模式(如对称.不对称.逆向.组合和传递 ...
最新文章
- 推荐7本EEG领域值得阅读的书籍
- Spring boot -mongodb
- 区块链BaaS云服务(28)TOP Network 之业务链和单向状态通道(Layer-2)
- springboot(1)使用SpringBoot基础HTTP接口GET|POST|DELETE|PUT请求
- 用Eclipse开发项目,你不能不知道的快捷键
- MAVEN简介之——settings.xml
- 工作总结8:关于Vue中的slot-scope=“scope“
- Machine Learning学习计划
- 对自己的python项目配置PYTHONPATH
- c# Point不能输入小数
- vue项目使用阿里云播放器(aliyun)
- 7.Redis过期策略底层是如何实现的?
- 统计学考研笔记:季度指数
- Python拉宾米勒(判断素数)
- 蓝桥杯科学素养刷题和分析
- 2021.5.10-2021.5.16周报
- 听说你们好奇我技术文章里的动图是怎么做的 ?
- asp.net实现无刷新ajax技术登录界面
- java 设计模式 常用21种
- 写简洁java代码的小技巧
热门文章
- sqlite3的基本操作
- C语言系列文章之#和##
- 你知道Linux里D进程会搞事吗?
- Android.mk中添加宏定义
- Android aidl在Framework的使用
- STM32项目(二) —— 车灯测试台架
- 清华大学计算机学院主页,计算机图形学基础课程主页 | 清华大学计算机系
- LeetCode 1944. 队列中可以看到的人数(单调栈)
- LeetCode 1167. 连接棒材的最低费用(优先队列+贪心)
- LeetCode 1287. 有序数组中出现次数超过25%的元素