中文NER涨点神器！基于多元数据的双流Transformer编码模型

©PaperWeekly 原创 · 作者 | 宁金忠

学校 | 大连理工大学博士生

研究方向 | 信息抽取

本篇论文发表于 ACL 2021，作者聚焦于中文 NER 任务。近些年来，在模型中引入词汇信息已经成为提升中文 NER 性能的主流方法。已有的中文 NER 词增强方式主要通过 lattice 结构在模型中引入词汇的边界信息和词嵌入信息。现如今我们使用的汉字从古老的象形文字演化而来，汉字中包含的偏旁部首等结构可以代表某些含义。因此，本文的作者提出在模型中融合进汉字的结构信息（例如部首等）。

论文标题：

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

论文链接：

https://aclanthology.org/2021.acl-long.121.pdf

中文词汇增强回顾

中文 NER 的词汇增强主要分为两条路线：

1. Dynamic Architecture：通过动态结构，在模型中注入词汇信息；

2. Adaptive Embedding：将词汇信息融合到 Embeding 中。

近些年来各大顶会上的中文 NER 词汇增强相关论文总结如下（参考博文 [1] ）:

其具体实现方法总结为:

▲ 词增强NER模型简介

已有的词增强 NER 模型的性能如下图所示：

▲ 模型实验结果（表中LEBERT使用的词表和预训练词向量与其他模型不同，结果在此处仅做参考，详情见论文）

论文方法介绍

文中作者的主要贡献为：

在中文 NER 模型中使用了多元数据特征（字特征，词特征以及汉字的结构特征）。
提出了一种能够将字特征、词特征和部首特征结合的双流（two-stream）模型来提高 MECT 方法的性能。
在多个中文 NER 数据集上的结果说明了模型结果的有效性。

▲ The whole architecture

本文模型的整体架构如上图所示。模型的输入为中文原始文本，例如图中所示的“南京市长江大桥”。模型中采用了模型 FLAT 中类似的 encoder 结构，从而可以将汉字以及词汇的语义 & 边界信息整合到模型当中。

▲ FLAT

关于 FLAT，不了解的小伙伴可以通过该帖子 [1] 进行了解。

与 FLAT 中的改进 Transformer encoder 不同的是，本文的作者提出了一种使用 Cross-Transformer 模块的 two-stream 模型。作者把汉字和包含汉字的词语看作一个“元（Meta）”，把每个汉字的包含的字根看做另外一个“元”。之后使用与 Transformer 中类似的自注意力机制，作者对两个“元”中的数据进行双路的交叉计算相关性，从而实现了多元信息的融合。

另外，作者在两个“元”的自注意力矩阵中加入一个随机初始化的注意力矩阵来对多元数据之前注意力值的偏差进行校正。

2.1 使用CNN提取Radical-level特征

汉字是象形文字，其字形和字义具有非常密切的联系。例如，包含“艹”或者“木”的文字通常和植物有关，包含“疒”的文字通常和疾病有关。因此，作者采用汉字中包含的字根（Structural Components）的嵌入特征来表达汉字的结构信息。作者使用的拆分方法是将汉字拆分成无法拆分的最小字根单位（如下图所示）：

▲ 汉字结构信息

之后作者使用如下图所示的 CNN 网络来提取 Radical-level 特征。

作者首先对原始文本中的汉字进行拆字，然后把得到的字根特征输入到 CNN 特征提取器当中，然后使用最大值池化和全连接网络得到每个汉字的 Radical-level 特征。

2.2 Cross-Transformer模块

获取 Radical-level 特征特征后，作者使用 Cross-Transformer 模块（如下图所示）来对融合多元数据。

模型的输入通过词嵌入特征和 Radical-level 嵌入特征的线性映射得到：

其中，和分别是 lattice 嵌入特征和 Radical-level 特征，为单位矩阵，每一个线性映射矩阵均为可学习参数。之后，作者使用和 FLAT 模型一样的相位位置编码来计算 Cross-Transformer 的注意力矩阵：

其中是 lattice 注意力得分，表示部首注意力得分，为可学习参数。为相对位置编码，和 FLAT 中原本的相对位置编码相比，进行了一定的简化：

2.3 Random Attention & 融合方法

Random Attention 是指在注意力矩阵上加上的一个随机初始化的参数学习矩阵：

关于模型的融合方法，作者将两路的注意力值拼接以后经过一个线性映射来多元数据中提取的特征。最后，作者 mask 掉提取的词部分的特征，将提取的字特征通过 CRF 来进行解码。

实验结果展示

3.1 主试验

作者在四个经典的中文 NER 数据集（Weibo，Resume，MSRA，Ontonotes 4.0）上进行了实验，并且选取 FLAT 作为 baseline。

结果显示，相比于 baseline 模型 FLAT，在模型中加入汉字结构特征以后，性能有了一定提升。据观察，在小规模数据集（例如 weibo）或者多类别数据集（Ontonotes 4.0）上，模型的提升更加显著。

3.2 Cross-Transformer注意力值可视化

▲ Visualization of cross-attention

从上图中（a）可以看出，Radical 注意力更关注全局的相关性，而 lattice 注意力更关心汉字和词汇的相关性。

3.3 Radical特征的影响

▲ Visualization of cross-attention

作者利用 Resume 数据集训练得到的汉字 radical-level embedding 进行了可视化，发现结构相近或者包含字根相近的字，在 radical-level embedding 空间中的距离就越近。结果如上图所示。
作者发现引入 radical-level 特征，可是使得一些常见的错误得到修正。例如在 Ontonotes 4.0 数据集中，“百分之四十三点二（43.2%）”被标注成了 PER 人名。引入 radical-level 特征后可以对该问题进行校正。

3.4 推理速度

▲ Relative inference speed of each model

由于模型采用了 Transformer 编码结构，模型具有不错的推理速度。

3.5 消融实验

▲ 消融试验方案

▲ 消融实验结果

作者设计了三个消融实验：

实验 A：把 Radical 特征和 lattice 特征拼接，使用 single-stream 模型。
实验 B：依然使用 two-stream 模型，但两个 stream 之间不再交叉计算注意力值。
-RA 实验：指去掉 random attention 的实验。

实验结果显示，模型中的模块均有效。

结论

本文提出了一个融入汉字结构特征的 two-stream Transformer 编码模型——MECT，该模型在多个中文 NER 数据集上均取得了很好的效果。

参考文献

[1] Li X , Yan H , Qiu X , et al. FLAT: Chinese NER Using Flat-Lattice Transformer[C]. ACL 2020.

[2] Wu S, Song X, Feng Z. MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition[J]. ACL 2021.

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。