OIE@OIA: an Adaptable and Efficient Open Information Extraction Framework

OIE task

OIE2016、Re-OIE2016、CaRB
在解决OIE任务时,有两种主流的方法,一是基于规则的方法,一是基于端到端的学习方法。

论文核心思想

将一个句子解析为OIA graph,然后,采用简单的规则,将OIA graph适用于不同的open information extraction任务。
open information annotation graph(OIA)是由句子中的phrase组成的。

论文架构


论文框架由两部分组成,一是OIA generator,二是adaptor OIE。

数据标注

由于目前没有OIA数据集,作者自己标注了一个OIA数据集,包含了12543个train samples,2002个development samples和2077个test samples。(三种节点类型:constant、predicate和function)
统计数据:train/dev/test samples,每个sample都是sentence-graph pair。
在标注上,利用了辅助注释系统,使用现有的基于规则的 OIA 系统为每个输入句子生成一个初始 OIA 图。对于节点类型初始化,我们将短语与 English-EWT v2.4 中的词性标签对齐,并根据中心词的词性标签分配OIA graph中的层次类型。然后我们为注释者开发了一个注释工具,以便轻松地修改适应的图形。
adaptor OIE部分是为每个OIE任务建立简单的rule,完成信息抽取。
质量控制上,**数据标注由三名语言学研究生/博士生完成。两个注释者首先标记每个样本。**如果有不同意见,将由第三位注释者参与讨论和投票。两个注释者的初始同意率约为 80%,讨论后(无需投票)最终同意率高于 93%。其余 7% 数据的标注通过投票获得。

模型训练

现在的预训练模型多是基于token级别的,但是,OIA graph是基于短语层级的,因此,需要,做一个转换。
word_OIA graphs:是采用bert模型,得到s=[w1,w2,…wn]的represention的。
在node attribute learning时,采用的是MLP 分类器。
node之间的边学习,分为两步,第一步是确定两个节点之间是否有边,第二步是确定边的类型。
关于一条边的start 和end node的学习:两个MLP层。
节点的表示:
节点属性的计算


节点之间存在边的概率计算:


loss函数:

节点之间label的计算:

总的损失函数

word 图构建时,采用的greedy search的策略,选择边中的概率值>0.5中最大的边,然后,识别冲突的边,将edge_label的概率设为0,之后,重复上述过程,直到所有的边的类型都被设置为止。可能会出现一些无连接的sub-graphs,处理方式是选择edge概率分值的edge,连接到sub-graph中。
word graph转为OIA graph,

我们首先收集由 next_word 和相关弧(prev_arg,pos_arg)链接的 Word-OIA 图中的节点,以形成 OIA 图中的节点。然后我们识别边缘upper_parataxis等特殊结构,并将Parataxis和Missing等特殊节点添加到OIA图中。

转换实例


文中定义的OIA graph

细粒度的实体type:


根据下一章节中,adaptor部分的规则,可以解析得到:

  1. Verbal: the extracted facts using the rule are <“told”, “Ms. Lee, the
    headmaster”, “Lily and Jimmy”, “she is responsible for this”> and
    <“is responsible”, “she”, “for this”>
  2. VerbalPip: This produces <“is responsible for”, “she”, “this”> for the sample
    in Figure 2 instead of <“is responsible”, “she”, “for this”>.
  3. CoordSep: <told, ~, Lily and Jimmy, ~> is separated into <told, ~, Lily, ~> and <told, ~, Jimmy, ~>.

adaptor部分的规则

Verbal:OIA图中的verbal node,选择verbal node子树中的child作为fact的argument。
VerbalPiP:对于每个带有介词子节点的动词节点,我们将子节点合并到动词节点中,并将动词规则应用于生成的 OIA 图。(for each verbal node
with a prepositional child, we merge the child into the verbal node and apply the Verbal rule on the resultant OIA graph)
Appos(be):在OIA graph中类似于e <A, appos, B>的,更改为<be,A,B>
CoordSep:协调参数被分成多个事实元组。(<told, ~, Lily and Jimmy, ~> is separated into <told, ~, Lily, ~> and <told, ~, Jimmy, ~>)
论文在不同数据集上,采用OIE规则,如下:
• Adaptor@OIE 2016 = Verbal + CoordSep;
• Adaptor@Re-OIE 2016 = Verbal + Appos([is]);
• Adaptor@CaRB = VerbalPiP + Appos(is) +CoordSep.

当前论文中的局限性

OIE@OIA 管道没有分离复合名词短语,使其无法提取复合名词短语中不同名词之间的名词关系(Yahya et al., 2014)。这是因为当前的 OIA 图是短语级别的图,并且将名词短语作为单个节点。举个例子,“美国总统”将在我们的 OIA 图中形成一个单一的节点,它无法根据该图识别“总统”和“美国”之间的关系。我们把这个问题留作我们未来的工作。

错误分析

总结下来,就是不确定性和冲突性。

(1)长尾word和edge
(2)粒度问题。节点的粒度或边界在预测结果中可能存在争议。例如,短语“turn out to be”可以是谓词,但“turn out”和“to be”形成嵌套关系也是有意义的。这样的粒度问题在谓词节点和常量节点中都会导致大约 25% 的错误。挖掘成语可以通过精细化的策略进一步明确表达的边界。这属于我们未来的工作
(3)模棱两可的修改。介词短语可用于在其上下文中修饰名词或动词。这种模糊性导致了大约 17% 的图级错误。例如,句I love all the roles in this play,介词短语in this play是所有角色的修饰语。因此,它们应该在ground truth OIA grap的同一个名词节点中

总结

这篇文章提出了一种架构,用于不同数据集的信息抽取结构,但是,实用性,感觉空间不大。
是在统一的OIA graph的基础,设立OIE规则,提取出对应的知识。
但是,在OIA graph 构建上,是由标注数据集的,而目前,大多领域没有这类数据集。
所以,OIA graph构建,就是第一个问题。
没有数据集就是最大的问题。

至于OIE,是短语级别的规则设置,这对于细粒度的信息抽取,似乎并没有太友好,虽然,也提到,可以将短语设为更为细粒度的表示的潜力,但数据集,依旧没有。
总体感觉,不太友好。
但大家还是在统一范式上,下的功夫。

论文:OIE@OIA: an Adaptable and Efficient Open Information Extraction Framework相关推荐

  1. 论文阅读: Spatial Dual-Modality Graph Reasoning for Key Information Extraction (关键信息提取算法)

    目录 引言 SDMG-R整体结构 双模态融合模块 Backbone部分 Head部分 融合模块 文本节点与边权重获得部分 图推理模块 分类模块 总结 引言 文档图像中的关键信息提取任务(Key Inf ...

  2. 论文笔记 Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition - CVPR

    Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition 2020 CVPR | c ...

  3. 论文阅读笔记:ProjectionNet: Learning Efficient On-Device Deep Networks Using Neural Projections

    提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 相关工作 神经投影网络(Neural Projection Networks) Pro ...

  4. Lightgbm源论文解析:LightGBM: A Highly Efficient Gradient Boosting Decision Tree

    写这篇博客的原因是,网上很多关于Lightgbm的讲解都是从Lightgbm的官方文档来的,官方文档只会告诉你怎么用,很多细节都没讲.所以自己翻过来Lightgbm的源论文:LightGBM: A H ...

  5. 【论文学习】:ICCV 2017-Detect-and-Track: Efficient Pose Estimation in Videos

    项目配置链接:https://blog.csdn.net/m0_37644085/article/details/84338463 ps:不仔细学习RCNN系列→FCN→Mask RCNN是不太可能读 ...

  6. Detection论文总结(2)AutoFocus: Efficient Multi-Scale Inference

    论文链接:arxiv 论文目录 AutoFocus: Efficient Multi-Scale Inference 引言 相关研究 背景 AutoFocus框架 FocusPixels FocusC ...

  7. 论文《Adversarial Binary Coding for Efficient Person Re-identification》翻译笔记

    论文链接:https://arxiv.org/pdf/1803.10914.pdf 摘要:行人重新识别(ReID)旨在匹配不同视图/场景的人. 除了准确性之外,由于使用大规模数据的苛刻应用,匹配效率受 ...

  8. 论文阅读:EfficientDet: Scalable and Efficient Object Detection

    文章目录 1.论文总述 2.各式各样的FPN及其效果 3.BiFPN设计的心路历程 4.Weighted Feature Fusion 4.EfficientDets家族的网络结构图 5.Compou ...

  9. 论文阅读:SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

    论文地址:https://arxiv.org/abs/2105.15203 发表年份:2021 我们提出了SegFormer,一个简单,高效但强大的语义分割框架,它将Transformers与轻量级多 ...

  10. 论文笔记 DXSLAM: A Robust and Efficient Visual SLAM System with Deep Features

    论文链接:https://arxiv.org/pdf/2008.05416.pdf 代码链接:https://github.com/ivipsourcecode/dxslam 主要内容 本文的主要工作 ...

最新文章

  1. GridBagLayout布局管理器应用详解
  2. php 查看当前字符编码,PHP检测当前字符编码并转码
  3. 教你学会Sql中 ROW_NUMBER的用法
  4. gvim安装及其配置
  5. c语言 inline函数的总结,C++中inline函数详解
  6. Eclipse install new software 失败 解决方案
  7. 两个实际任务掌握图像分类【Keras】(转)
  8. 毕设一:python 爬取苏宁的商品评论
  9. Quartus 13.0安装教程
  10. 基金定投如何选择买卖点?——关于定投的择时研究
  11. DSP28335学习记录(五)——eCAP、eQEP
  12. 离散型随机变量及其分布律2
  13. 6款相见恨晚的资源网站,每个都百里挑一,送给正需要的你!
  14. Promise.all、Promise.race、Promise.allSettled、Promise.any区别
  15. Rich feature hierarchies for accurate object detection and semantic segmentation
  16. 选择了软件测试,你后悔吗?
  17. 东北电力计算机考研分数线,东北电力大学考研分数线_2021考研国家分数线什么时候出来...
  18. 易支付代付系统 易商付(espay.cn)提供 全新UI页面设计功能齐全
  19. 静态时序分析—时钟延时(Clock Latency)
  20. 2018年举办区块链峰会_2015年开放硬件峰会开放接受注册,征求建议

热门文章

  1. 一文弄懂Spring Cloud的5大核心组件详解:Eureka+Hystrix+Zuul+Ribbon
  2. 斐波那契 (黄金分割法)查找——推导 详细
  3. oracle类型number,Oracle NUMBER 类型细讲
  4. 【生活日记】  路在脚下,更在心中,心随路转,心路常宽
  5. Linux svn up 遇到Conflict discovered in
  6. java随机点名_javascript实现的一个随机点名功能
  7. 超详细wordPress主题制作教程
  8. 基因型填充中的phasing究竟是什么
  9. 如何在CentOS 7上安装Elasticsearch,Logstash和Kibana(ELK堆栈)
  10. Javaweb(二)制作调查问卷