Lex-BERT：超越FLAT的中文NER模型？

作者：JayLou娄杰
链接：https://zhuanlan.zhihu.com/p/343231764
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

谈起中文NER任务，NLPer都不陌生。而如今，提升中文NER指标的主要方式是引入词汇信息，JayJay在之前的综述《中文NER的正确打开方式: 词汇增强方法总结》一文中就详细介绍了中文NER的一些主流方法，而SOTA属于FLAT[1]。

最近arxiv上的一篇paper《Lex-BERT: Enhancing BERT based NER with lexicons》将词汇信息作为标识符引入到input中，并超越了FLAT的结果。

Lex-BERT相比于FLAT有三点优势：

不需要利用word embedding；
可以引入实体类型type信息，作者认为在领域内，可以收集包含类型信息的词汇；
相比FLAT，Lex-BERT推断速度更快、内存占用更小；

一个题外话：JayJay之所以在标题中打了个问号（？），只是觉得不能就此下结论“Lex-BERT超越FLAT”，毕竟还是需要先有一个带有实体类型信息的高质量词表啊～但FLAT等用到的词向量是很容易获取的。

JayJay之所以还要介绍Lex-BERT，主要想强调：将词汇/实体信息作为标识符引入文本输入中，对于NER和关系抽取都还是有明显增益的。你再回想回想陈丹琦的《反直觉！陈丹琦用pipeline方式刷新关系抽取SOTA》，就体会到其中的“异曲同工”之处了。

SOTA回顾：FLAT

FLAT的设计十分简单巧妙。如上图所示，具体地设计了一种巧妙position encoding来融合Lattice 结构，具体地，对于每一个字符和词汇都构建两个head position encoding 和 tail position encoding。相关词汇共享相关token的position信息。FLAT可以直接建模字符与所有匹配的词汇信息间的交互，例如，字符[药]可以链接词汇[人和药店]和[药店]。

相关实验表明，FLAT有效的原因是：新的相对位置encoding有利于定位实体span，而引入词汇的word embedding有利于实体type的分类。

Lex-BERT：简单到爆！

Lex-BERT方式其实很简单，前提是要有一个拥有类型type信息的词汇表。论文作者共给出了2个版本的Lex-BERT，如上图所示：

Lex-BERT V1: 将type信息的标识符嵌入到词汇前后，例如，上图中[v][/v]代表医学相关的动词。
Lex-BERT V2: 将type信息的标识符拼接input后，然后与原始word起始的token共享相同的position embedding。此外，在attention层中，文本token只去attend文本token、不去attend标识符token，而标识符token可以attend原文token。

上图给出了Lex-BERT与FLAT（本文的FLAT实际是FLAT+BERT的结果）的指标对比，可以看出，Lex-BERT V1和V2均超过了FLAT，Lex-BERT V2领先更大。

上图给出了Lex-BERT与FLAT的推断速度和内存占用对比，相比FLAT，Lex-BERT推断速度更快、内存占用更小。

划重点：将词汇/实体类型信息当作标识符引入，增益明显！

看完Lex-BERT V1和V2的框架后，你是否感觉和女神的关系抽取SOTA很“雷同啊”？我们赶紧来回顾一下关系模型和“近似模型”吧：

关系模型：如上图(b)所示，对所有的实体pair进行关系分类。其中最重要的一点改进，就是将实体边界和类型作为标识符加入到实体Span前后，然后作为关系模型的输入。
近似关系模型：如上图(c)所示，将实体边界和类型的标识符放入到文本之后，然后与原文对应实体共享位置向量。上图中相同的颜色代表共享相同的位置向量。哈哈，这是不是借鉴了FLAT的结构呢？

其实，Lex-BERT和关系抽取SOTA，都是将类型信息当作标识符引入到输入文本中的。值得一提的是：Lex-BERT V2 和近似关系模型都借鉴了FLAT的方式，将标识符放入到文本之后，通过共享位置向量来建立软连接。

所以，本文主要想强调：将词汇/实体信息作为标识符引入文本输入中，对于NER和关系抽取都还是有明显增益的。