面向中国企业关系抽取的双向门控递归单元神经网络

论文原文：论文原文
摘要：为了帮助金融从业人员有效识别高风险企业、法人或股东，国内外学者构建了风险预警的企业知识图谱。从财经新闻等非结构化数据中提取企业关系是构建企业知识图的重要手段，但其数据结构的不规则性和处理工具的匮乏给关系提取带来了挑战。针对这一问题，本文提出了SDP-BGRU模型，从非结构化数据中提取企业关系，将企业关系提取视为一个分类问题。该模型利用两个实体之间的最短依赖路径(SDP)，通过双向门控循环单元(BGRU)网络和支持向量机作为分类器获取特征向量。实验结果表明，该模型在试验数据上取得了较好的效果。

介绍

企业的数量在逐渐增加，企业的违法和不可信行为也在增加。此外，由于当前投资主体的多元化和企业集团管理的发展，企业之间的关系变得越来越复杂，子公司也变得越来越隐蔽。金融从业人员很难掌握相关企业的真实信息，增加了工作量。为了帮助他们有效识别高风险、问题企业、法人或股东，全面了解企业信息，学者或机构构建企业知识图谱进行关联分析、风险预测等研究。谷歌在2012年提出了知识图谱的概念，它可以分为开放领域知识图谱和垂直领域知识图谱。企业知识图谱是金融领域的垂直领域知识图谱。构建企业知识图谱，从图中呈现公司、个人、组织、行业等实体信息以及实体关系信息，帮助金融机构更直观地了解和检索相关实体，并进行风险预警。相关企业及其他应用。例如招商银行为了加强风险应对策略，将企业知识图谱融入信贷业务，对客户关系进行调查，全面掌握信息。非结构化数据，如金融新闻、公司公告和社区讨论，包含大量的企业实体和企业关系。从这些非结构化数据中提取企业关系对于构建企业知识图具有重要作用。然而，这些数据结构是不规则的，处理工具也很少。它远低于手动从这些数据中获取关系来更新这些非结构化数据的速度。幸运的是，它可以转化为自然语言处理中的关系抽取任务。
关系抽取是信息抽取的关键任务之一，其目的是识别自然语言文本中两个实体(e1, e2)之间的语义关系。例如“阿里巴巴还在今年4月宣布将以约10亿美元收购东南亚最大电商Lazada ，并将天猫系统的产品出口到东南亚”这句话中，e1和e2的关系是“收购”。早期关系提取主要采用基于特征的方法和基于核的方法。基于特征的方法依赖于使用自然语言处理工具来获取特征，如POS、实体类型、依赖树等。基于核函数的方法取决于核函数的设计。如果特征选择不当或内核函数设计不合理，将难以提高系统的性能。近年来，深度学习作为一种新的机器学习工具和方法，在各个方面都有突出的表现，许多学者逐渐将深度学习应用到关系提取中。与传统的实体关系提取方法相比，基于深度学习的关系提取方法有了很大的改进。神经网络可以自动学习句子中的重要信息，Zeng等人使用位置嵌入和词嵌入作为CNN的输入进行关系提取。DOS Santos等对CNN网络进行了改进，命名为CRCNN，用基于排名的损耗函数代替了softmax损耗函数，提高了精度。但是CNN无法学习远程的语义信息，RNN可以可以利用历史性信息并且考虑词的顺序。Ebrahimi等人提出了利用双向递归神经网络的BRNN模型，Rui Cai等人将CNN和RNN与最短相关路径(SDP)信息相结合。虽然RNN可以学习上下文信息，但由于梯度问题的消失，上下文范围受到限制，因此除了CNN和RNN之外，还有许多优秀的网络，如长短期记忆(Long - term Memory, LSTM)、双向长短期记忆(双向长短期记忆，BLSTM)、门控递归单元(Gated recurunit, GRU)等。Yan等人提出了SDP-LSTM模型。网络通过单向LSTM网络学习了两个实体之间的最短依赖路径信息以及路径上的POS、WordNet超名词等特征，而使用单向网络只能利用序列当前位置的历史信息，而未来的信息也有助于当前位置的输出。因此，Zhou等提出了双向长短期记忆(BLSTM)来提取关系，与Yan中的复杂特征相比，该模型仅使用单词嵌入和PI (Position indicator)作为输入，并增加了注意机制。结果表明，利用双向网络和注意机制可以提高模型的性能。注意机制可以赋予重要信息更多的权重，提高系统性能。Lin等人还为模型构建了句子级注意机制，用于动态地降低那些噪声实例的权重。GRU模型是LSTM模型的一种变体，比LSTM网络结构简单，参数少。Zhang等人使用带有双层注意机制的BGRU提取字符关系，但忽略了句子成分之间的依赖关系。Zhou等人采用带注意机制的BGRU模型对实体和实体关系进行联合提取，但联合提取模型实现复杂。Yan等人构建了ERE-GRU模型进行企业关系提取，在其网络中增加了6个特征，这些特征数量较多，增加了向量表示的维数。
依赖分析是自然语言处理的关键技术之一，它可以确定句子的句法结构或句子中单词之间的依赖关系。通过句法分析得到实体之间最短的依赖路径，该路径集中了实体关系的大部分关键信息。证明了最短依赖路径在关系抽取任务中的有效性。受到上述思想的启发，**本文提出了用于企业关系抽取的SDP-BGRU模型。**该模型利用两个实体之间的最短路径和句子级注意机制来消除冗余和噪声数据，BGRU网络充分学习最短依赖路径中包含的信息，从而实现对信息的全面学习，采用支持向量机分类器来提高系统的性能。

方法

本文提出的模型包括五个部分:最短相关路径获取、词嵌入、BGRU、注意力和SVM分类器。给定两个实体和包含两个实体的句子，模型输出两个实体之间存在一定关系的概率。图1是模型的总体框架。

最短的依赖路径

依赖解析树自然适合于关系分类，因为它关注的是句子中的动作和代理。此外，如前所述，最短的依赖路径浓缩了最具启发性的实体关系信息。因为如果实体e1和e2是相同谓词的参数，则它们之间最短的依赖路径将传递谓词，如果e1和e2属于共享相同参数的不同谓词参数结构，则路径将传递参数[9]。使用最短的依赖路径可以去除句子中大量的冗余组件。例如，“作为中国电商巨头，阿里巴巴在今年4月宣布将以约10亿美元收购东南亚最大的电商Lazada ，并将天猫系统的产品出口到东南亚”。通过相关性分析，可以得到如图2所示的依赖树。

从依赖解析树中可以看出，阿里巴巴与Lazada之间的最短路径是“阿里巴巴宣布收购Lazada”，这条最短依赖路径包含了关系抽取的重要信息，句子中有大量无用的成分。

词嵌入

当使用深度学习进行语言处理时，语言必须以数学形式表达。本文采用了词语嵌入。给定一个由T个单词组成的句子，每个单词xi通过单词嵌入矩阵w转换为实值向量Wword=Rdw∣V∣W^{word}=R^{d^w|V|}Wword=Rdw∣V∣。其中v代表固定大小的词汇表，wd是单词嵌入的大小。在本文中，我们使用word2vec工具来训练中文维基百科语料上的词嵌入。这个句子被转换成{e1,e2,e3,……,eTe_{1},e_{2},e_{3},……,e_{T}e1,e2,e3,……,eT}进入下一层

BGRU

GRU网络是LSTM网络的一种变体，在许多任务中取得了巨大的成功。LSTM通过三个门来解决长期依赖问题:遗忘门、输入门和输出门。遗忘门决定从细胞状态中丢弃什么信息，输入门决定允许输入多少新信息，输出门决定输出值。GRU网络的结构比LSTM网络简单，它将LSTM中的三个门转换为两个门，更新门和重置门，如果
XiX_{i}Xi表示当前时刻的输入，ht−1h_{t-1}ht−1 表示之前时刻的输出，W1,W2,W3,W4W^1,W^2,W^3,W^4W1,W2,W3,W4表示权重矩阵，Zt,ZrZ_{t},Z_{r}Zt,Zr表示更新门和重置门，[]表示矩阵之间的连接，*表示矩阵之间相乘，GRU前向神经网络的传播公式如下:
rt=σ(Wr⋅[ht−1,xt])r_{t}=σ(W_{r}·[h_{t-1},x_{t}])rt=σ(Wr⋅[ht−1,xt])
zt=σ(Wz⋅[ht−1,xt])z_{t}=σ(W_{z}·[h_{t-1},x_{t}])zt=σ(Wz⋅[ht−1,xt])
ht~=tanh(Wh~⋅[rt∗ht−1,xt])\tilde{h_{t}}=tanh(W_{\tilde{h}}·[r_{t}*h_{t-1},x_{t}])ht~=tanh(Wh~⋅[rt∗ht−1,xt])
ht=(1−zt)∗ht−1+zt−1∗ht~h_{t}=(1-z_{t})*h_{t-1}+z_{t-1}*\tilde{h_{t}}ht=(1−zt)∗ht−1+zt−1∗ht~
yt=σ(Wo⋅ht)y_{t}=\sigma(W_{o}·h_{t})yt=σ(Wo⋅ht)
其中σ(⋅)\sigma(·)σ(⋅)是sigmoid函数可以表示成为11+e−x(x∈R)\frac{1}{1+e^{-x}} \quad(x\in{R})1+e−x1(x∈R),tanh(·)可以表示成为tanh(x)=ex−e−xex+e−x(x∈(R)\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}} \quad(x\in(R)ex+e−xex−e−x(x∈(R)
前向网络可以利用当前时刻的历史信息，而当前时刻的未来信息在提取关系时也很重要，因此模型利用BGRU网络对句子进行充分学习。前向GRU网络和后向GRU网络的结合可以解决网络的遗忘问题.前向网络的第i个字输出为hiˉ\bar{h_{i}}hiˉ，后向网络的第i个字输出为hiˉ\bar{h_{i}}hiˉ，因此第一个字的输出可以表示为:
下图展示了BGRU的网络结构：

注意力

核心目标是从众多信息中选择对当前任务更为关键的信息。数据集存在将同一实体对标注为不同关系的问题。该模型采用句子级注意机制，可以有效降低错误标注实例的影响。如果句子长度为T，则BGRU层的输出向量为[h1,h2,h3……hT][h_{1},h_{2},h_{3}……h_{T}][h1,h2,h3……hT],句子r用下面的形式表示:M=tanhHM=tanhHM=tanhHα=softmax(WTM)\alpha=softmax(W^{T}M)α=softmax(WTM)r=HαTr=H\alpha^{T}r=HαT其中H∈RdwH\in{R^{d^{w}}}H∈RdwxTTT,其中dwd^{w}dw是词嵌入的维度,w是训练的参数向量，句子基于词级别的注意力机制被表示为hc∗=tanh(r)h^{*}_{c}=tanh(r)hc∗=tanh(r)。根据基于词级注意机制的句子表示，得到基于句级注意机制的句子表示:

SVM分类

传统GRU模型将特征向量馈入softmax分类器并输出概率值，本文模型采用SVM分类器。

实验

数据集

目前用于关系抽取的大部分数据集都是英文数据集，并且没有很多公开可用的企业语料库。实验使用小规模的企业关系数据集，主要来自金融网站的新闻，并对新闻中的实体对和关系进行标注。数据集包含1500个句子，按7:3的比例分为训练集和测试集。

实验结果

我们使用LTP和networkX工具来获得两个实体之间最短的依赖路径。BGRU单位数为230,dropout为0.5。学习率为0.001，epoch为10。下表给出了不同模型在准确率、召回率和F1方面的输出比较。实验基于BGRU网络，分别用softmax和SVM对端分类器进行测试。然后将两个实体之间的SDP添加到这两个模型中并进行实验。实验结果表明，最后采用的SVM分类器优于softmax分类器，加入SDP后指标得到进一步改善。本文提出的模型在四次模型实验中准确率最高，查全率最高，F1值最高，分别为92.5%、91.3%和91.9%。这表明本文提出的方法对企业关系抽取是有效的。此外，SDP为关系抽取任务提供了关键信息，BGRU单元可以沿着最短的相关路径有效地检测和传播特征。

用柱状图比较了BGRU+SDP+softmax模型和BGRU+SDP+SVM模型时各类关系的准确率和召回率

从图4可以看出，“投资”、“合作”和“收购”在使用后者时具有更高的精度，“竞争”和“董事长”关系在两种模型中具有同样的精度。在图5中，除了第五种关系“主席”，其他四种关系的召回率都有所提高。

结论

本文研究了非结构化数据中企业实体关系的提取。为了避免构造复杂特征的任务，选择深度学习方法进行企业关系提取，神经网络可以自动学习句子特征。提出了用于企业关系抽取的SDP-BGRU模型。该模型利用两个实体之间的最短路径和句子级注意机制来消除冗余和噪声数据，并利用BGRU网络充分学习最短相关路径中包含的信息，然后使用支持向量机分类器来提高系统的性能。与传统的BGRU模型相比，本文提出的模型在测试集上可以达到更高的精度和召回率，证明了该方法在企业关系提取任务中是有效的。这个实验使用较少的数据集。下一步是进一步扩展数据集，使网络得到更充分的训练，并希望取得更好的效果，进一步完成企业知识图谱的构建。