论文：OIE@OIA: an Adaptable and Efficient Open Information Extraction Framework

OIE@OIA: an Adaptable and Efficient Open Information Extraction Framework

OIE task

OIE2016、Re-OIE2016、CaRB
在解决OIE任务时，有两种主流的方法，一是基于规则的方法，一是基于端到端的学习方法。

论文核心思想

将一个句子解析为OIA graph,然后，采用简单的规则，将OIA graph适用于不同的open information extraction任务。
open information annotation graph（OIA）是由句子中的phrase组成的。

论文架构

论文框架由两部分组成，一是OIA generator，二是adaptor OIE。

数据标注

由于目前没有OIA数据集，作者自己标注了一个OIA数据集，包含了12543个train samples，2002个development samples和2077个test samples。（三种节点类型：constant、predicate和function）
统计数据:train/dev/test samples，每个sample都是sentence-graph pair。
在标注上，利用了辅助注释系统，使用现有的基于规则的 OIA 系统为每个输入句子生成一个初始 OIA 图。对于节点类型初始化，我们将短语与 English-EWT v2.4 中的词性标签对齐，并根据中心词的词性标签分配OIA graph中的层次类型。然后我们为注释者开发了一个注释工具，以便轻松地修改适应的图形。
adaptor OIE部分是为每个OIE任务建立简单的rule，完成信息抽取。
在质量控制上，**数据标注由三名语言学研究生/博士生完成。两个注释者首先标记每个样本。**如果有不同意见，将由第三位注释者参与讨论和投票。两个注释者的初始同意率约为 80%，讨论后（无需投票）最终同意率高于 93%。其余 7% 数据的标注通过投票获得。

模型训练

现在的预训练模型多是基于token级别的，但是，OIA graph是基于短语层级的，因此，需要，做一个转换。
word_OIA graphs:是采用bert模型，得到s=[w1,w2,…wn]的represention的。
在node attribute learning时，采用的是MLP 分类器。
node之间的边学习，分为两步，第一步是确定两个节点之间是否有边，第二步是确定边的类型。
关于一条边的start 和end node的学习：两个MLP层。
节点的表示：
节点属性的计算

节点之间存在边的概率计算：

loss函数：

节点之间label的计算：

总的损失函数

word 图构建时，采用的greedy search的策略，选择边中的概率值>0.5中最大的边，然后，识别冲突的边，将edge_label的概率设为0，之后，重复上述过程，直到所有的边的类型都被设置为止。可能会出现一些无连接的sub-graphs，处理方式是选择edge概率分值的edge，连接到sub-graph中。

word graph转为OIA graph，

我们首先收集由 next_word 和相关弧（prev_arg，pos_arg）链接的 Word-OIA 图中的节点，以形成 OIA 图中的节点。然后我们识别边缘upper_parataxis等特殊结构，并将Parataxis和Missing等特殊节点添加到OIA图中。

转换实例

文中定义的OIA graph

细粒度的实体type：

根据下一章节中，adaptor部分的规则，可以解析得到：

Verbal: the extracted facts using the rule are <“told”, “Ms. Lee, the
headmaster”, “Lily and Jimmy”, “she is responsible for this”> and
<“is responsible”, “she”, “for this”>
VerbalPip: This produces <“is responsible for”, “she”, “this”> for the sample
in Figure 2 instead of <“is responsible”, “she”, “for this”>.
CoordSep: <told, ~, Lily and Jimmy, ~> is separated into <told, ~, Lily, ~> and <told, ~, Jimmy, ~>.

adaptor部分的规则

Verbal：OIA图中的verbal node，选择verbal node子树中的child作为fact的argument。
VerbalPiP：对于每个带有介词子节点的动词节点，我们将子节点合并到动词节点中，并将动词规则应用于生成的 OIA 图。（for each verbal node
with a prepositional child, we merge the child into the verbal node and apply the Verbal rule on the resultant OIA graph）
Appos(be):在OIA graph中类似于e <A, appos, B>的，更改为<be,A,B>
CoordSep:协调参数被分成多个事实元组。（<told, ~, Lily and Jimmy, ~> is separated into <told, ~, Lily, ~> and <told, ~, Jimmy, ~>）
论文在不同数据集上，采用OIE规则，如下：
• Adaptor@OIE 2016 = Verbal + CoordSep;
• Adaptor@Re-OIE 2016 = Verbal + Appos([is]);
• Adaptor@CaRB = VerbalPiP + Appos(is) +CoordSep.

当前论文中的局限性

OIE@OIA 管道没有分离复合名词短语，使其无法提取复合名词短语中不同名词之间的名词关系（Yahya et al., 2014）。这是因为当前的 OIA 图是短语级别的图，并且将名词短语作为单个节点。举个例子，“美国总统”将在我们的 OIA 图中形成一个单一的节点，它无法根据该图识别“总统”和“美国”之间的关系。我们把这个问题留作我们未来的工作。

错误分析

总结下来，就是不确定性和冲突性。

（1）长尾word和edge
（2）粒度问题。节点的粒度或边界在预测结果中可能存在争议。例如，短语“turn out to be”可以是谓词，但“turn out”和“to be”形成嵌套关系也是有意义的。这样的粒度问题在谓词节点和常量节点中都会导致大约 25% 的错误。挖掘成语可以通过精细化的策略进一步明确表达的边界。这属于我们未来的工作
（3）模棱两可的修改。介词短语可用于在其上下文中修饰名词或动词。这种模糊性导致了大约 17% 的图级错误。例如，句I love all the roles in this play，介词短语in this play是所有角色的修饰语。因此，它们应该在ground truth OIA grap的同一个名词节点中

总结

这篇文章提出了一种架构，用于不同数据集的信息抽取结构，但是，实用性，感觉空间不大。
是在统一的OIA graph的基础，设立OIE规则，提取出对应的知识。
但是，在OIA graph 构建上，是由标注数据集的，而目前，大多领域没有这类数据集。
所以，OIA graph构建，就是第一个问题。
没有数据集就是最大的问题。

至于OIE，是短语级别的规则设置，这对于细粒度的信息抽取，似乎并没有太友好，虽然，也提到，可以将短语设为更为细粒度的表示的潜力，但数据集，依旧没有。
总体感觉，不太友好。
但大家还是在统一范式上，下的功夫。