[论文笔记] EMNLP2019: A Lexicon-Based Graph Neural Network for Chinese NER

概述: LGR: 基于词典构图的中文NER图神经网络
论文链接
论文代码

一. 介绍

Motivation

基于字符的中文NER中，同一个字符可能属于多个lexicon word，存在 overlapping ambiguity 的现象, 这会对最终标注结果造成误导。例如图1中， “河流” 也可属于 “流经” 两个词中，都含有同一个"流"字。
Ma等人于2014年提出，想解决overlapping across strings的问题，需要引入整个句子中的上下文以及来自高层的信息；然而，现有的基于RNN的序列模型，不能让字符收到序列方向上 remain characters 的信息；

Proposed Model

基于以上问题，本文提出一种基于 lexicon信息的图网络 lexicon-based Graph Neural Networks (LGN):

图结构能够打破 RNN 序列结构的限制，使 character 和 lexicon word 间有更充分的联系。
基于 lexicon word 将相关的字符连接起来，能够捕捉局部的构成信息
设计一个全局的中继节点来捕捉长距离依赖和高层次的特征信息
LGN 将通过节点的"入边"和全局中继节点，对邻居节点进行聚合(正是由于这种多轮的聚合，使得全局上下文信息可以用来对模糊的词语进行区分)；

Contributions

本文提出基于** lexicon 信息来构建图网络**，并将中文NER问题建模为图中的节点分类问题；
本文模型能够捕捉到全局的上下文信息和局部的构成信息，通过迭代聚合机制来解决中文中词语边界模糊的问题；
实验结果证明了本文模型的有效性。

二. 相关工作

Related works包括两部分:

一是介绍了现有的基于字符的中文NER工作，并指出现有的方法难以利用到全局信息；
二是介绍了图神经网络及其在NLP中的应用，并指出目前的工作中，很少有通过中文字符间联系进行构图的；

三. 模型

构图与聚合

构图

关于构图的示意如图2所示，主要包括以下要点：

每个句子被转化为一个有向图
每个字符被作为图中的一个节点, 在每个lexicon word的第一个和最后一个字符间构建一条边, 每条边代表了潜在的可能存在词语(即lexicon word)的特征
构建一个全局的中继节点，它与图中的每个边和点都相连，用来汇聚所有边和点的信息，从而消除词语之间的边界模糊；
由于全局中继节点的存在，图中任意两个不邻接的节点之间都是彼此的二阶邻居，可以通过两次节点更新来接收彼此的非局部的信息；
另外，对以上的图结构进行转置得到一个所有边都反向后的反向图，将反向图与原图中得到的字符表示进行拼接，作为最终的字符表示；

局部聚合

局部聚合包括对节点的聚合和对边的聚合。

节点:
- 令节点表示为citc_i^tcit, 该节点的入边集合为E={ek,it}E=\{e_{k,i}^t\}E={ek,it}, 则通过多头attn机制来聚合边ek,ie_{k,i}ek,i及其对应的前驱节点ckc_kck;
- 这样做的出发点是，入边和前驱节点能够有效地表明潜在word的边界信息。
边：
- 令 eb,ete_{b,e}^teb,et 字符 cbtc_b^tcbt 和 cetc_e^tcet 之间的边, 同样通过多头attn机制进行对 eb,ete_{b,e}^teb,et 和 cbtc_b^tcbt 到 cetc_e^tcet 之间的字符进行聚合。

对于句子中的每个字符，通过LSTM得到其原始的节点表示；对于lexicon words, 通过每个word的词向量来作为图中边的初始表示；node和edge的初始化表示平均后得到全局中继节点的初始化表示。

全局聚合

为了捕获长距离依赖和高层次的特征，通过全局节点对每条边和节点的表示进行聚合(Figure3-c所示)。

经过这样多轮的信息交换后，gt^\hat{g_t}gt^ 能够包含全局的特征信息，而 eb,et^\hat{e_{b,e}^t}eb,et^ 包含了局部的字符信息。

Recurrent-based Update Module

节点更新

通过如下公式进行节点更新：

其中，

ξit{\xi}_i^tξit 表示 context window 范围内邻接向量的拼接操作，本文中 context_window 窗口大小为 2. (因为根据相关文献，bigram的字符操作对序列标注问题是非常有用的)
三个门结构 iit^\hat{i_i^t}iit^ fit^\hat{f_i^t}fit^ lit^\hat{l_i^t}lit^ 三个门结构用来控制全局特征向字符表示 c_i^t 的信息流动，从而调节lexicon的attn权值，缓解序列上边界模糊的问题

为了更好地利用字符、lexicon word与句子间的关系，本文还类似地设计了边更新模块和全局节点更新模块

Edge Update

边更新通过如下公式进行

Global Relay Node Update

全局节点更新通过如下公式进行, 目的在于将有用的信息分享到上下文:

Decode

最后，图中节点的表示即每个字符的表示。通过CRF对字符对应标签进行解码。

四. 实验设置

主要介绍了数据集、用于比较的 baseline models 等。

五. 实验分析

作者首先展示了LGN模型在不同数据集上的实验结果，然后从不同方面对LGN模型进行了分析。

研究图结构上消息传递步数对结果的影响
- 结论: 随着更新步数的增加，LGN能捕获到更多有用的信息；
去掉全局节点
- 结论：全局连接在图结构中是非常有用的
去掉 lexicon words 信息
- 对于字符级别的中文NER任务，lexicon words 信息是非常重要的
与 Lattice-LSTM 做对比，分别去掉 LGN 和 Lattice-LSTM 的双向结以及CRF层，结果显示 LGN 可以取得更好的效果，因此认为 LGN 具有对句子建模的更强的能力。
研究句子长度对实验结果的影响
- 随着句子长度的增加，Lattice-LSTM 的accuracy 下降明显，而
  LGB不仅对短句效果较好，而且对句子长度超过80个字符时仍旧有效。
Case Study: 通过对 Lattice-LSTM、LGN-global, LGN-1step 和 LGN 的标注结果进行对比，展示 LGN 处理 word ambiguity problme 的能力。

了解更多论文分享信息，请关注公众号深度学习的知识小屋