引言

信息抽取一直以来都是自然语言处理中最基础的技术之一,它指的是将文本中的非结构化信息通过算法或模型自动提取转换为结构化数据的过程。信息抽取任务有多个子任务:命名实体识别(NER)、关系抽取(RE)、事件抽取(EE)。信息抽取的结果可以用于很多NLP的下游任务例如阅读理解、知识图谱构建和智能问答。今天给大家分享三篇ACL关于信息抽取的文章,分别涵盖了命名实体识别(NER)、信息联合抽取以及关系抽取(RE)三个方面。

文章概览

  • Named Entity Recognition without Labelled Data: A Weak Supervision Approach

    论文地址:https://arxiv.org/pdf/2004.14723

    命名实体识别(NER)的一大主要瓶颈是需要很多人工标注的高质量数据,但是很多实际场景中这样的数据资源是很稀缺的,尤其是在某些特定领域中。本篇文章提出了一种类似于集成学习(ensemble learning)的方法聚合了多个利用标注工具在目标语料标注来解决目标语料没有标注的问题。

  • A Joint Neural Model for Information Extraction with Global Features

    论文地址:https://www.aclweb.org/anthology/2020.acl-main.713/

    在进行实体、关系、事件联合抽取的过程中,之前的传统方法会忽略掉各任务之间的联系,比如抽取“选举获胜”事件的人一般只有一个人,但有些模型会抽取出两个人作为该事件的对象。本文提出了一种融合全局信息的方法来解决这个问题。

  • A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

    论文地址:https://arxiv.org/pdf/1909.03227

    传统的关系抽取(RE)的任务构建为:给定两个实体,然后利用分类器对两个实体之间是否存在关系和属于哪一类关系进行判断。本文提出了一种新的关系抽取任务的构建方法:利用头实体和遍历所有关系类别对可能的尾实体进行标注,并达到了SOTA的效果。

论文细节

1

动机

当命名实体识别任务(NER)被应用于与训练数据领域不相同时,其性能会迅速的下降。当目标领域有少量标注数据时,我们可以采用迁移学习的方式来进行对现有模型的迁移。但是很多实际情况中,目标领域也没有标注数据。

本文的贡献如下:

1)提出了一种使用弱监督方法的命名实体识别模型的替代方法,不需要目标域中的任何标记数据。

2)实现并对一系列NER的标注函数进行了集合。

3)开源了该框架,并能够应用到更大的数据集上。

方法

  • 如上图所示,本文的方法可以分为三个阶段:

1)利用一系列 标注函数Label Function),从大量源文本中进行标注。

2)利用 标签聚合模块 (HMM) 对上一步的多个标注语料集合进行聚合。

3)利用聚合后的标注数据,训练一个序列化标注模型。

  • 下面针对每一步进行详细说明:

  1. 利用一系列 标注函数,从大量源文本中进行标注。

  • 标注函数:每个标注函数都将文本文档作为输入,并输出与NER标签。

  • 标注函数类别

    • Out-of-domain NER models:从可获得标签数据的文本域中训练好的NER模型

    • Gazetteers(词典):如Wikipedia,Geonames,the Crunchbase Open Data Map, DBPedia等

    • Heuristic functions(手工特征)

    • Document-level relations:(在同一篇文章中同一个span更有可能属于同一种类型,所以该公式刻画了同一篇文章中,相同实体属于某个类别的概率)

  • 利用标签聚合模块 (HMM)对上一步的多个标注语料集合进行聚合。

    • 对于每个 标注函数




       都有一个发射矩阵,我们希望得到一个概率 










      ,用来聚合这些发射矩阵

    • 作者假设这个分布符合Dirichlet 分布

    • 所有的参数如下,并利用EM算法进行参数学习

  • 最后利用标注好的数据进行模型训练即可

  • 实验

    • 基础实验是HMM聚合和其他方法聚合相比较,其中可以看出利用所有标注函数并利用HMM聚合所得到的实验结果最好

    • 同时可以发现加入doc-level的标注函数后,f1 score 提升了一个点左右。

    • 同时可以发现,利用HMM聚合标注语料后重新训练NER模型,并没有直接利用HMM聚合标注的效果好。

    所以作者补充了一个在众包标注的语料上的实验

    从实验结果可以说明在众包标注的数据集上,利用HMM聚合后的标注语料结合训练的神经网络模型取得的效果最好。

    2

    动机

    本文的任务为“多任务联合信息抽取”:即输入一个句子,目的在于抽取出该句的信息网络。信息网络将事件和实体表示为节点;实体之间关系和事件触发(trigger)作为边。从另一方面说,这个任务就是利用统一的框架,对实体、关系和事件进行了联合抽取。但是前人的工作中都没有关注抽取的东西之间的相互联系,例如“Prime Minister Abdullah Gul resigned earlier Tuesday to make way for Erdogan, who won a parliamentary seat in by-elections Sunday.”这句话中赢得选举只能是一个人,但其他模型会抽取出2个不同的人作为该事件的对象,为了解决这个问题本文提出了一种融合全局信息的联合信息抽取模型。

    模型

    该模型分为四个阶段:

    1. Encoding( Bert )阶段获取句子的词表示

    2. 识别阶段,负责识别出句子中的实体和事件

    3. 用分类器进行类别判断

    4. 利用beam search对候选节点和边进行解码

    在第二阶段将每个词的表示送入前馈神经网络,然后用CRF来对实体和事件进行预测,这个过程中并不预测他们的类别,目的是在于为了在之后第三阶段中能够加入全局信息。

    第三步分类阶段是本文的重点,具体过程如下:

    • 对于第二步识别出来的 节点(实体、事件),将他们词向量的平均表示作为这个节点的表示。

    • 对不同任务,他们的预测标签 由  
























      进行计算 ; 其中关系分类采用将两个node的表示进行拼接然后输入前馈神经网络





























      ,得到预测标签

    • 然后对每个任务分别计算

    • 基于分类器的各节点和边的得分,我们可以算出这样抽取出来的信息图的得分

    通过以上步骤后得到的抽取结果具有一定的局部信息局限性,即无法捕捉到信息网中元素之间的全局依赖关系。依赖关系主要分为两种:

    1. 跨子任务的交互效应 (实体、事件和关系之间),例如

      A civilian aid worker from San Francisco was killed in an attack in Afghanistan.

      句中“旧金山”和“被杀”是一个实体和一个事件,在进行事件关系判断的时候由于两者离得很近所以很容易被判断成“受害者(victim)”的关系,但实际上根据我们的常识 “受害者” 这层关系是不可能和地理位置联系起来的。

    2. 跨实例之间的交互效应(事件与事件,关系与关系)

      South Carolina boy, 9, dies during hunting trip after his father accidentally shot him on Thanksgiving Day

      句中“boy”和“dies”离得很近,所以很容易抽取出“男孩死亡”这一信息,同时后面出现的“shot”由于通常“死亡”这一事件和“受害者(victim)”这一层关系是相互联系的,所以我们也可以知道“boy”是“shot”的“受害者(victim)”

    为了解决以上两种局限性,作者提出了一系列全局的特征(global feature)

    作者采用以下方式加入该全局信息:

    • 给定一张信息图,采用如下来表示全局feature








































    • 是一个函数,用来评判一种特定的feature,并返回一个分数,例如

    • 最后引入一个可学习的参数




      ,融合全局feature和局部feature



























    最后我们可以得到全局信息的loss:




























    总的loss为:















































    实验

    主实验结果如下:

    其中(1)DY GIE++ 2019年的联合信息抽取的SOTA模型;(2)BASELINE 与ONEIE(本文提出的模型)有相同结构,但是没有加入全局信息。

    从实验结果可以看出,本文提出的模型全方位都高于2019年的DY GIE++,尤其是在事件抽取方面格外突出。

    在附属的关于语言迁移的实验如下:

    作者在中文和西班牙语的语料上分别做了实验,都取得了不错的效果;发现不用对特定语言做特殊处理,效果也很好。

    3

    动机

    大多数已有的方法,是给定句中两个实体,然后利用分类器,对关系类别空间中的类别进行分类。但是,这样做不能有效的解决句中实体对的关系有多个,出现重叠的场景,因为分类器都假定实体对最多只存在一种关系。例如,

    本文提出了一种新颖的关系抽取框架,重新审视了关系抽取的任务构建,并且有效的解决了实体对关系重叠和单个实体横跨在关系之中等问题。

    框架

    任务目标:抽取关系三元组的目标是从句子中识别出所有可能的 形如<subject, relation, object> 关系三元组,但是有些三元组共享了subject或者object

    数学上的定义:

    给定已标注训练集D中的任意一个单句







    和 该句中的所有潜在的三元组

















    ,我们想要去最大化 似然函数:

    这样定义有三个好处:

    1. 任务定义三元组 level上,最后优化也是直接在三元组层面上进行优化

    2. 没有对共享实体的重叠关系三元组进行假设和复杂处理,可以直接处理带有重叠的关系三元组

    3. 从公式3 能够得到设计此模型框架的启发,先学习一个 subject tagger,然后学习一个 关系特定的object tagger。这样能够直接一次性把所有可能的triple都抽出来。

    模型

    模型分为两部分:

    1. BERT Encoder

    2. Cascade Decoder

    • Subject Tagger

    • Relation-specific Object Taggers

    其中Subject Tagger训练了两个个2元分类器,用来指示该字符是否是某一个subject的开头或者结尾:

    Relation-specific Object Taggers则是针对每一个识别出来的subject所有类别的关系,在句中采取和上一步相似的两个二元分类器对每个subject和特定关系下可能的object进行Tagging。

    以上两个Tagger 都采用贪心的取最近的start position和end position作为一个识别出的entity。

    实验

    主实验结果如下:

    从实验结果发现,本文所提出的新框架新模型远远超出其他baseline,作者想到了可能与预训练模型有关,所以又补充了一个采用“random参数的bert” 和 “不采用bert而采用LSTM进行编码”的实验,同样都表现出了极高的指标。

    同时作者发现这些baseline普遍在WebNLG这个数据集上表现很差,作者通过分析数据集发现:

    WebNLG数据集中正常的(即既不出现关系重叠,又不出现关系跨实体情况)的数据条数占比很少,所以为了探究在正常的和非正常的数据中本文的模型表现如何,作者又做了如下实验。

    作者分别取出了正常的数据、是实体对重叠的和关系跨实体的数据分别进行实验,发现本文的模型在每一个实验中都远远超过其他模型。

    作者还探究了该模型对句子复杂程度的研究,一般来说,一个句子中三元组个数越多句子越复杂,模型能正确抽取关系三元组的难度也就越大,但是从如下实验可以看出,本文提出的模型能够很好的胜任复杂的句子,并且与其他模型相比抽取准确率一直保持在一个很高的水平上。

    参考文献

    [1] Lison P, Hubin A, Barnes J, et al. Named Entity Recognition without Labelled Data: A Weak Supervision Approach[J]. arXiv preprint arXiv:2004.14723, 2020.

    [2] Lin Y, Ji H, Huang F, et al. A Joint Neural Model for Information Extraction with Global Features[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 7999-8009.

    [3] Wei Z, Su J, Wang Y, et al. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020: 1476-1488.

    供稿丨罗瑞璞编辑丨王思远责编丨何啸风来自 | 复旦DISC


    供稿人:罗瑞璞丨本科四年级丨研究方向:信息抽取、知识建模丨邮箱:16307130247@fudan.edu.cn

    下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!后台回复【五件套】
    下载二:南大模式识别PPT后台回复【南大模式识别】
    

    说个正事哈

    由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

    (1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

    (2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

    感谢支持,比心

    投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

    方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

    记得备注呦

    推荐两个专辑给大家:

    专辑 | 李宏毅人类语言处理2020笔记

    专辑 | NLP论文解读

    专辑 | 情感分析

    
    整理不易,还望给个在看!
    

【论文分享】ACL 2020 信息抽取任务中的新动向相关推荐

  1. MRC与QA在信息抽取任务中的相关应用总结

    每天给你送来NLP技术干货! 1. 机器阅读理解(MRC).问答系统(QA)与信息抽取 最近实体关系抽取与命名实体识别的SOTA模型排行榜中,有很多模型都使用了机器阅读理解(MRC)和问答系统(QA) ...

  2. 科研效率直线提升!如何一键下载会议论文?ACL 2020 论文代码批量下载 打包分享

    ACL 2020 论文代码批量下载 打包分享 1. 提取代码 2. EndNote批量导入,看论文可以如此轻松! 3. 论文批量分享 全文总结 如何通过代码批量自动化爬取会议论文 代码如下,其他会议同 ...

  3. 【论文解读 ACL 2020 | MixText】Linguistically-Informed Interpolation of Hidden Space for 半监督文本分类

    论文题目:Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification 论 ...

  4. 【报告分享】2020产业互联网发展报告:新范式.pdf(附下载链接)

    大家好,我是文文(微信号:sscbg2020),今天给大家分享亿邦智库和清华大学于2020年12月份发布的报告<2020产业互联网发展报告:新范式.pdf>,关注产业互联网赛道的伙伴们别错 ...

  5. 【报告分享】2020当代年轻人消费数据报告-新浪时尚得物(附下载)

    今天给大家分享的是  2020当代年轻人消费数据报告-新浪时尚&得物 2020当代年轻人消费数据报告-新浪时尚&得物 当下时尚的穿着实用性在年轻的Z世代(一般指95后年轻群体)眼里,或 ...

  6. 【ACL 2020】腾讯AI Lab解读三大前沿方向及入选的20篇论文

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来源:腾讯AI实验室 自然语言理解是腾讯 AI Lab 的主要研究方向之一,研究能力也 ...

  7. ACL 2020 | 腾讯AI Lab解读三大前沿方向及入选的20篇论文

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要20分钟 Follow小博主,每天更新前沿干货 来源:腾讯AI实验室 自然语言处理领域顶级会议 ACL 2020 将于 7 月 5 日至 10 ...

  8. 一人之力,刷爆三路榜单!信息抽取竞赛夺冠经验分享

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达文 | JayLou娄杰 在现如今的NLP竞赛中,信息抽取(IE)任务已占据半壁江山.来 ...

  9. 使用NeMo快速完成NLP中的信息抽取任务,英伟达专家实战讲解,内附代码

    信息抽取(IE)是从非结构化.半结构化的可读文档或其他电子表示来源中自动提取结构化信息的任务.信息抽取技术为文本挖掘.智能检索.智能对话.知识图谱.推荐系统等应用提供了基本的技术支持. 近日,英伟达x ...

  10. 实体链接:信息抽取中的NLP的基础任务

    2020-07-10 09:22:59 作者:Sundar V 编译:ronghuaiyang 导读 构建知识库的必备技能之一. 我相信大多数人都遇到过命名实体识别(NER).NER是一种基本的自然语 ...

最新文章

  1. 求满足从1加到m的和大于1000的最小m值
  2. 利用 FC OSS 快速搭建 Serverless 实时按需图像处理服务
  3. 发展医疗大数据 需捅破各层窗户纸
  4. C++笔记函数重载函数模板
  5. iOS再现安全漏洞 “1970变砖”问题仍未解决
  6. 戴尔游匣7559经常(大概半小时)断电,关机的解决办法
  7. 【设计素材】表格数据形平面海报素材
  8. 查看linux进程的设备io,Linux下查看进程IO工具iopp
  9. 代码逻辑分析_致C++完美主义者:使用Visual Studio新工具分析你的代码
  10. lopatkin俄大神Windows精简版系统 安装教程 简单版
  11. 机器学习丨如何理解正定矩阵和半正定矩阵
  12. 模拟停车场管理系统(栈和队列的应用)
  13. 鹅厂打响互联网大厂校招第一枪!
  14. 计算机基础应用本终结性考试,计算机应用基础
  15. 电脑卡在系统logo处
  16. 有序列表和无序列表的不同类型
  17. 买的天猫转让网店怎么取名
  18. JS遍历数组的方法【详解】
  19. 5条快速优化博客的SEO技巧
  20. LRU(Least Recently Used)页面置换算法

热门文章

  1. [读码时间] 自定义右键菜单
  2. centos7安装eclipse
  3. ubuntu 下一个神奇的命令--以窗口形式打开某个文件夹
  4. 【leetcode】1018. 可被 5 整除的二进制前缀
  5. Android 集成Unity项目
  6. ceph:如何处理rados --striper上传失败的对象
  7. java根据所给的根目录获取底下所有文件夹结构
  8. C语言程序设计--宏和预处理
  9. Bootstrap 滚动监听(Scrollspy)插件
  10. nginx服务企业应用