论文浅尝 | 用异源监督进行关系抽取:一种表示学习方法
Citation: Liu, L., Ren, X., Zhu, Q., Zhi, S., Gui, H., Ji, H., & Han, J.(2017). Heterogeneous Supervision for Relation Extraction: A RepresentationLearning Approach. Retrieved from http://arxiv.org/abs/1707.00166
动机
现有的关系抽取方法严重依赖于人工标注的数据,为了克服这个问题,本文提出基于异种信息源的标注开展关系抽取模型学习的方法,例如知识库、领域知识。这种标注称作异源监督(heterogeneous supervision),其存在的问题是标注冲突问题,即对于同一个关系描述,不同来源的信息标注的结果不同。这种方法带来的挑战是如何从有噪声的标注中推理出正确的标签,以及利用标注推理结果训练模型。
例如下面的句子,知识库中如果存在<Gofraid,born_in, Dal Riata>这个三元组,则将下面的句子标注为born_in关系;而如果使用人工模板“* killed in*”进行匹配,则会将该句子标注为kill_in关系。
Gofraid(e1) died in989, said to be killed in Dal Riata(e2).
为了解决这个问题,本文提出使用表示学习的方法实现为关系抽取提供异源监督。
创新点
本文首次提出使用表示学习的方法为关系抽取提供异源监督,这种使用表示学习得到的高质量的上下文表示是真实标签发现和关系抽取的基础。
方法
文章方法框架如下:
图 关系描述表示方法
(1)文本特征的向量表示。从文本上下文中抽取出文本特征(基于pattern得到),简单的one-hot方法会得到维度非常大的向量表示,且存在稀疏的问题。为了得到更好的泛化能力,本文采用表示学习的方法,将这些特征表示成低维的连续实值向量;
(2)关系描述的向量表示。在得到文本特征的表示之后,关系描述文本依据这些向量的表示生成关系描述的向量表示。这里采用对文本特征向量进行矩阵变换、非线性变换的方式实现;
(3)真实标签发现。由于关系描述文本存在多个可能冲突的标注,因此发现真实标签是一大挑战。此处将每个标注来源视为一个标注函数,这些标注函数均有其“擅长”的部分,即一个标注正确率高的语料子集。本方法将得到每种标注函数擅长的语料子集的表示,并以此计算标注函数相对于每个关系描述的可信度,最后综合各标注函数的标注结果和可信度,得到最终的标注结果;
(4)关系抽取模型训练。在推断了关系描述的真实标签后,将使用标注的语料训练关系抽取器。
值得指出的是,在本方法中,每个环节不是各自独立的,真实标签发现与关系抽取模型训练会相互影响,得到关系上下文整体最优的表示方法。
实验结果
本文使用 NYT 和 Wiki-KBP 两个数据集进行了实验,标注来源一方面是知识库,另一方面是人工构造的模板。每组数据集进行了包含 None 类型的关系抽取,和不包含 None 类型的关系分类。结果如下表所示,可见本文的方法相比于其他方法,在两个数据集的四组实验中均有较明显的性能提升。
论文笔记整理:刘兵,东南大学博士,研究方向为自然语言处理。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。
点击阅读原文,进入 OpenKG 博客。
论文浅尝 | 用异源监督进行关系抽取:一种表示学习方法相关推荐
- 论文浅尝 | 将文本建模为关系图,用于联合实体和关系提取
论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱.自然语言处理. 链接:https://www.aclweb.org/anthology/P19-1136 动机 本文提出了一种利用图卷积网络(G ...
- 论文浅尝 | 多内容实体和关系联合抽取的对抗训练
链接:https://arxiv.org/pdf/1808.06876.pdf 动机 Szegedy 在 14 年发现,对于图像分类问题的神经网络,若是在输入中人为的添加很小尺度的扰动,会让已经训练好 ...
- 论文浅尝 | DEER:解释实体关系的描述性知识图谱
笔记整理:王润哲,东南大学硕士,研究方向为多元关系抽取 链接:https://aclanthology.org/2022.emnlp-main.448.pdf 动机 实体关系是知识图谱中不可或缺的一层 ...
- 论文浅尝 | 知识图谱的单样本关系学习
链接:http://cn.arxiv.org/pdf/1808.09040 动机 如今的知识图谱规模很大但是完成度不高,long-tail关系在知识图谱中很常见,之前致力于完善知识图谱的方法对每个关系 ...
- 论文浅尝 | DeCLUTR: 无监督文本表示的深度对比学习
Giorgi, J. M., O. Nitski, G. D. Bader and B. Wang (2020). "DeCLUTR: Deep Contrastive Learning f ...
- 论文浅尝 | GraphIE:基于图的信息抽取框架
笔记整理:吕欣泽,南京大学计算机科学与技术系,硕士研究生. 论文连接:https://arxiv.org/pdf/1810.13083.pdf 发表会议:NAACL 2019 摘要 大多数现代信息提取 ...
- 论文浅尝 | 用于学习知识图谱嵌入的一种基于注意力机制的新型异构 GNN 框架HRAN...
笔记整理 | 李爽,天津大学 链接:http://hfbix45521e79b0484907sowxo0fubpp9b6xwx.fiiz.eds.tju.edu.cn/stamp/stamp.jsp? ...
- 论文浅尝 | 用于低资源条件下知识图谱补全的关系对抗网络
论文作者: 邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究. Ningyu Zhang, Shumin Deng, Zhanlin Sun, Jiaoyan Chen, ...
- 论文浅尝 | 近期论文精选
本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...
最新文章
- 在Asp.Net中从sqlserver检索(retrieve)图片
- 精通python爬虫框架-精通Python爬虫框架Scrapy.pdf
- html5 文件转byte[],JS 文件base64、File、Blob、ArrayBuffer互转
- safehandle 和析构函数
- C语言不好应该转专业吗,转专业后对于C语言补修的一些体会(1)
- Luy 1.0 :一个React-like轮子的诞生
- 从控件开发的角度看几个editor控件,Freetextbox,radtoolbar,abouteditor,cuteeditor
- html5 内容载入,HTML5 的 DOMContentLoaded 和 onload
- 管理老板,让他乖乖给你涨工资
- JAVA ------- eclipse使用的步骤: %## 使用小技巧 ##%
- 使用RDKit将pdb文件转成SMILES
- XmlSerializer对象
- 区块链教程Fabric1.0源代码分析流言算法Gossip服务端一兄弟连区块链教程
- 中科大EPC课程爬取
- 轻松拥有美国号码,免费收发短信
- html实现短信验证的功能,怎样实现短信验证功能
- ldc java_java – LDC指令代码的负值是什么意思?
- HDU 4238 You Are the One
- 组网技术:ADSL+无线路由器组网实例图解(组图)
- 3d打印技术改变生活的影响
热门文章
- 25 To Life
- [翻译] python Tutorial 之一
- 我们应该搞清楚分支预测
- 200个模块,怎么用有线的方式进行组网通信
- 怎么撤回操作_微信又更新,拍一拍能撤回了
- python os renames_Python3 os.renames() 方法
- 读Java并发编程实践记录_原子性_锁_同步容器详解_任务执行
- echart 数据点可以加链接吗_地理可视化就这么简单、酷炫,蚂蚁金服AntV 空间数据可视化引擎 L72.0发布...
- concurrently同时开启多个监听服务
- Mongodb 账户权限配置