开放信息抽取(OIE)系统(五)-- 第四代开放信息抽取系统(基于深度学习, deeplearning-based, 抽取式&生成式)

一.第四代开放信息抽取系统背景

第四代开放信息抽取系统的诞生和发展离不开时代的浪潮,首先是深度学习迅猛发展,word-embedding、seq2seq-attention、attention、bert等技术层出不穷;然后就是前人开源出的各种OIE系统,也给数据标注等带来便利。
​ 基于深度学习的开放信息抽取系统与之前的信息抽取方法有极大的不同,1)首先是使用开源的开放信息抽取系统抽取训练集, 2)然后是将深度模型直接用于开放三元组抽取。

二.第四代开放信息抽取系统历史

第三代开放信息抽取系统的思路是引入一个句子重组阶段,其目标是转换复杂的句子为简单句。

  • 2018

    • RnnOIE(SRL: BiLSTM+Softmax): Supervised Open Information Extraction
    • CopyAttention(Encode-Decode<3-layer-bilstm>): Neural Open Information Extraction
  • 2019
    • SenseOIE: Supervising Unsupervised Open Information Extraction Models
  • 2020
    • SpanOIE(BiLSTM_span): Span Model for Open Information Extraction on Accurate Corpus
    • Multi2OIE(BERT+Classify+Attention): Multilingual Open Information Extraction based on Multi-Head Attention with BERT
    • IMoJIE(BERT+CopyAttention): Iterative Memory-Based Joint Open Information Extraction
    • OpenIE6(BERT+IGL(Attention+Label-encode))): Iterative Grid Labeling and Coordination Analysis for Open Information Extraction

三. 第四代开放信息抽取系统内容

3.1 概述

第四代开放信息抽取系统的思路主要是:
- a.未标注语料使用OPENIE4系统等构建高召回的训练集(自助法);
- b.使用a中获取到的数据集, 抽取式或生成式的端到端深度学习

3.2 RnnOIE系统(抽取式, 序列标注, 先关系后实体)

  • 主要思想: 使用语义角色标注数据、OpenIE4数据等, 将三元组抽取任务转化为端到端的序列标注任务。
  • 详情:
    • BiLSTM + Softmax, BIO标注, 类是SRL任务, 一次支持单个关系多对实体, embed使用的是feat(wi, p) = emb(wi) ⊕ emb(pos(wi)) ⊕ emb(wp) ⊕ emb(pos(wp)), p is the word index of the predicate’s syntactic head, we extract feature vector feat for every word.

      • SRL通常处理单词谓词,但openie使用多词谓词,这些谓词通常包含情态动词和嵌入式谓词;
      • OPENIE三元组实体的顺序会偏离原句的顺序;
      • 在推理时,首先确定句子中的所有动词和名词性谓语都作为候选谓语。
    • 训练数据来源: QA-SRL, QAMR, OpenIE4

3.3 SenseOIE系统(抽取式, 序列标注, 多个开源系统输出融合+多特征)

  • 主要思想: 使用多个历史开源OIE系统输出的联合结果、少量标记数据作为训练集,加上一组不同的词汇和语法信息,如单词嵌入、词性嵌入、句法角色嵌入和依存句法分析结果作为其输入特征,进行三元组抽取。
  • 详情:
    • 数据标注: E1, E2, R or O (EOR tags);

    • 标签投票是一种基本机制, 从三个不同的OIE获得多数票作为输入;

    • 网络架构只是一个简单的Bi-LSTM, 不过值得注意的是特征使用了 word-embed, pos-embed, SRL-embed, DP-embed, 3-OIE-system-output;

    • 训练数据来源:

      • 开源开放信息抽取系统: Stanford Open IE, OpenIE 5 and UKG can complement each other when combined together.
      • 数据集: AW-OIE-C、Web、NYT、PENN

3.4 CopyAttention(Seq2seqOIE)系统(生成式, 按照实体-关系-实体顺序生成)

  • 主要思想: 使用语义角色标注数据、OpenIE4数据等, 将三元组抽取任务转化为端到端的序列标注任务。
  • 详情:
    • 三层LSTM作为encode层, 三层的LSTM作为decode层, 使用Attention和Copying Mechanism;
    • 只支持二元抽取, 不支持多元抽取和嵌套抽取. In this work, we only consider the binary extractions from sentences, leaving n-ary extractions and nested extractions for future research.
    • 训练数据来源: OPENIE4, Wikipedia dump 201801013 and extracted all the sentences that are 40 words or less

3.5 SpanOIE系统(抽取式, 指针抽取n-ary三元组, 标注测试集)

  • 主要思想: 精确重新注释的基准测试集, 引入指针模型(introduce a span model for n-ary Open IE)。
  • 详情:
    • 分为两个模块, 第一步是关系识别(主要是谓语), 第二步输入句子和关系预测实体;
    • 指针候选范围(Spans Candidates Selection):
      • 最大长度限制: 训练限制(关系-10-words, 实体-5-words), 推理不限制;
      • 无重叠约束: 关系与实体不重叠;
      • 语法约束: 跨度只保留句法span的paent-word, 或者当前词语的paent-word;
    • 输入特征: xi = emb(wi) ⊕ emb(pos(wi)) ⊕ emb(p(wi)) ⊕ emb(dp(wi))
    • 片段特征: fspan(si:j) = hi ⊕ hj ⊕ hi + hj ⊕ hi − hj
    • 训练数据来源:
        1. 语料库是为n元抽取而不是二元抽取而构建的提取, 2) 利用OpenIE4低置信度分数的输出。
      • QA-SRL(改进 + 自己标注)

3.6 Multi2OIE系统(抽取式, 多语言版本)

  • 主要思想: 多国语言版, 支持英语/西班牙语/葡萄牙语, BERT + Multihead, 先预测关系再抽取实体, 每个关系最多支持3对实体;

    • 实体提取, 一个句子包含一个或多个谓语。argument提取方法只针对一个谓词, 多个谓词则重复这一过程;
  • 数据来源: OIE2016-dev(OPENIE4), CaRB-dev;

3.7 IMOJIE系统(生成式, subject, 实体-关系-实体)

  • 主要思想: 1) BERT+CopyAttention, 2) 拼接上一轮结果预测下一个三元组, 3) 融合多个历史版本OIE系统的输出

  • 详情:

    • 改进CopyAttention的缺点: 不适配多个关系和复杂sentence输入的情况; 多个抽取不连续, 存在冗余抽取的情况;
    • BERT + LSTM(copy/attention), 多个三元组的情况, 将预测出的三元组加入encode再预测;
  • 多系统自助法(Multiple Bootstrapping Systems)

    • 为了充分利用OpenIE-4的高召回和ClausIE的高精度, 去除冗余项(scoring-filtering);

3.8 OPENIE6系统(抽取式, 二维网格标注<IGL网络> + )

  • 主要思想: 转化为二维网格标记任务(IGL) + 迭代标记, 用以提高指标、加速推理

  • 详情:

    • IGL网络架构(IGL architecture), 约束提高召回(constraints), 连词分析器处理连词句子(coordination analyzer), 对于给定的句子,基于IGL的OpenIE提取器产生一个不完整的抽取, 约束条件通过覆盖剩下的单词来提高召回率, 协调分析器处理层次连接;

    • Iterative Grid Labeling, IGL架构label-embedding迭代

    • 网格约束, For the given sentence, IGL based OpenIE extractor produces an incomplete extraction. Constraints improve the recall by covering the remaining words. Coordination Analyzer handles hierarchical conjunctions.

    • IGLOIE具有良好的精度,但遗漏了重要的信息提取, 定义中心动词(head-verb)(除轻动词以外的所有动词, do, be, is, has, etc.)

      • 例子: “Obama gained popularity after Oprah endorsed him for the presidency”, 中心动词(head-verb, gained, endorsed.), 为了覆盖所有有效的抽取, 定义:
      • pos覆盖率(POSC):名词(N)、动词(V)、形容词(JJ)和副词(RB)等至少包含一个抽取。必须包含的例子:<Obama, gained, popularity>, <Oprah, endorsed, presidency>
      • head verb覆盖率(HVC):每个中心动词应该出现在某些(但不要太多)三元组。 以下不是必须的: <Obama, gained, presidency>
      • head verb排他性(HVE):关系跨度一次提取最多只能包含一个中心动词。以下不是一个好的关系: gained popularity after Oprah endorsed
      • 三元组计数(EC):在关系跨度中,有中心动词的三元组总数必须不少于中心动词在句子里的数目。
    • 连词边界检测, Coordination Boundary Detection

  • 二维网格标注问题(M,N), 其中M是预定义的最大提取次数,N是句子长度;

代码

  • RnnOIE: https://github.com/gabrielStanovsky/supervised-oie
  • Multi2OIE: https://github.com/youngbin-ro/Multi2OIE
  • IMoJIE: https://github.com/dair-iitd/imojie
  • OpenIE6: https://github.com/dair-iitd/openie6

论文与文章

  • RnnOIE: https://www.aclweb.org/anthology/N18-1081.pdf
  • SpanOIE: https://arxiv.org/pdf/1901.10879.pdf
  • CopyAttentionOIE: https://arxiv.org/pdf/1805.04270.pdf
  • SenseOIE: https://aclanthology.org/N18-1081/
  • Multi2OIE: https://arxiv.org/abs/2009.08128
  • IMoJIE: https://www.aclweb.org/anthology/2020.acl-main.521/
  • OpenIE6: https://arxiv.org/abs/2010.03147

开放信息抽取(OIE)系统(五)-- 第四代开放信息抽取系统(基于深度学习, deeplearning-based, 抽取式生成式)相关推荐

  1. 无人驾驶汽车系统入门(二十六)——基于深度学习的实时激光雷达点云目标检测及ROS实现

    无人驾驶汽车系统入门(二十六)--基于深度学习的实时激光雷达点云目标检测及ROS实现 在前两篇文章中,我们使用PCL实现了在点云中对地面的过滤和点云的分割聚类,通常来说,在这两步以后我们将对分割出来的 ...

  2. 3种基于深度学习的有监督关系抽取方法

    摘要:本文对几种基于深度学习的有监督关系抽取方法进行了介绍,包括CNN关系抽取.BiLSTM关系抽取以及BERT关系抽取. 本文分享自华为云社区<基于深度学习的有监督关系抽取方法简介>,作 ...

  3. [论文阅读笔记52]深度学习实体关系抽取研究综述

    来源:软件学报 2019 1.摘要: 围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系 抽取研究进展,并对未来可能的研究方向进行了探讨和展望. 2.经典的实体关系抽取方法 ...

  4. 基于深度学习的事件因果关系抽取综述

    来源:专知本文约1000字,建议阅读5分钟因果关系抽取是自然语言处理(NLP)中的一种关系抽取任务,它通过构造事件图来挖掘文本中具有因果关系的事件对,已经在金融.安全.生物等领域的应用中发挥重要作用. ...

  5. 开放开源 | DeepKE:基于深度学习的开源中文关系抽取工具

    本文转载自公众号:浙大 KG. 作者:余海阳 机构:浙江大学 代码地址: https://github.com/zjunlp/deepke OpenKG 发布地址: http://openkg.cn/ ...

  6. 基于深度学习的信息抽取技术

    DeepIE: Deep Learning for Information Extraction DeepIE: 基于深度学习的信息抽取技术(预计2020年8月31日前全部更新完毕) TOP 知乎专栏 ...

  7. 【毕业设计_课程设计】基于深度学习网络模型训练的车型识别系统

    文章目录 0 项目说明 1 简介 2 模型训练精度 3 扫一扫识别功能 4 技术栈 5 模型训练 6 最后 0 项目说明 基于深度学习网络模型训练的车型识别系统 提示:适合用于课程设计或毕业设计,工作 ...

  8. 深度学习实体关系抽取研究综述笔记

    鄂海红,张文静,肖思琪,程瑞,胡莺夕,周筱松,牛佩晴.深度学习实体关系抽取研究综述.软件学报,2019,30(6): 1793−1818. http://www.jos.org.cn/1000-982 ...

  9. 基于深度学习的智能PCB板缺陷检测系统(Python+清新界面+数据集)

    摘要:智能PCB板缺陷检测系统用于智能检测工业印刷电路板(PCB)常见缺陷,自动化标注.记录和保存缺陷位置和类型,以辅助电路板的质检.本文详细介绍智能PCB板缺陷检测系统,在介绍算法原理的同时,给出P ...

最新文章

  1. QT中关于ipv6和getaddressinfo的开关
  2. 【数据库】MongoDB数据库的操作及练习
  3. 数据库:B+树索引和Hash索引得区别
  4. 营销增长大揭密丨市场人应具备的101种硬核营销姿势
  5. 我是这样用extern的...
  6. 微信转账一次显示两个_微信为啥分红包和转账两大功能?这4个区别你要知道,望相互转告...
  7. android怎样禁用整个布局点击,Android - 自动禁用布局里的所有子控件
  8. TPTP(Java Profiling Tools插件)对Java程序进行性能测试
  9. 数学对编程思想的帮助_学编程需要什么基础?
  10. android studio或者IntelliJ代码样式的设置
  11. DevExpress之ChartControl用法
  12. 基于6U VPX架构的6槽标准VPX机箱
  13. SSM SpringBoot vue高校实训管理系统
  14. 解决html页面运行时出现乱码问题
  15. vmware 虚拟机安装系统成功,没有虚拟网卡的完美解决方法
  16. cpu个人训练四 K 打地鼠游戏
  17. python修改植物大战僵尸阳光值
  18. 入手对比:华为mate40pro和mate40pro+区别
  19. proteus原理图转化为pcb
  20. java 云笔记_云笔记系统的设计与实现 PDF 下载

热门文章

  1. OBD-II标准故障码定义
  2. Android 源码 Camera2 HAL3 流配置
  3. java编写的ATM自动存款机项目
  4. Jmeter工具笔记-使用Firefox浏览器导入证书并录制Web
  5. 区块链为存证和分布式存储带来哪些变化?
  6. java计算机毕业设计抗击新冠疫情专题宣传网站源程序+mysql+系统+lw文档+远程调试
  7. matlab需要的软硬件,软件运行硬件环境 软件著作权-用MATLAB写了个小程序,想申请软件著作权,求大神指点...
  8. cv_8uc3是什么意思?
  9. QQ资料卡筛选 达人|性别|地区|年龄 易语言制作
  10. 前端文字转 音频 speechSynthesis