[论文阅读笔记14]Nested named entity recognition revisited

一，题目

Nested Named Entity Recognition Revisited
重访问的嵌套命名实体识别

二，作者

Arzoo Katiyar and Claire Cardie
Department of Computer Science
Cornell University 康奈尔大学 (世界顶级私立研究型大学,2021QS世界大学排名世界第18)
Ithaca, NY, 14853, USA

三，摘要

对RNN的创新，提出识别与检测嵌套NER的方法，从RNN中抽取出一个超图表示。
对三个数据集（ACE2004，ACE2005，GENIA）做了实验，效果显著于存在的 state-of-the-art效果，同时效率方面也是线性时间复杂度。

四，解决什么问题?

一个比较普遍的问题，实体嵌套，GENIA占17%，ACE占30%等，实体嵌套如下这样：

（S1）中， “human B cell line” 与“EBV - transformed human B cell line”都为类型为CELL_LINE实体。
（S2）中， LOCATION把PERSIONF进行了嵌套。

五，已经有什么方法？

总的来说处理Nested NER的方法，通常为基于特征的方法，这些方法都得手工特征，这些方面不可用效果超好的RNN方法：

已有的方法	说明
Alex et al.（2007）	提出了一个cascaded（级联） CRF model，但不可以识别实体种类；
Finkel and Manning(2009)	对于句子中的每个实体的成份构建成份分析器(constituency parser)；可是这个时间复杂度比较大,大O的句子token长度N的三次方。
Lu and Roth(2015)	接上面的方法，提出了基于超图的线性时间复杂度的方法
Muis and Lu (2017)	基于mentions分离器提出多图表示
Klein and Manning ( 2001)	介绍有向超图

本文提出：基于RNN方法去处理嵌套命名识别与检测。基于标准RNN进行修改，处理起来是线性的，这个神经网络还联合了实体mention的核心词子任务，这个子任务对于信息抽取作用很大。

超图表达与论文Lu and Roth(2015)[Joint mention extraction and classifification with mention hypergraphs]是比较像的。

六，编码方案

关于超图模型

对于Nested NER，glod标注画出来结果为：

把这个需求转化成如下的有向超图结构，曲线表示超弧，直线表示正规边：

对BILOU的图表达，可见是参过折叠共享状态的节点来形成。例如，对于“that”，由三个“O”来表示，下面的图把这个节点变成了一个节点，同理，两个“B_PER”也变成了一个节点。
如果按照规则折叠，图2相对于图1却多出了一个对应于“this”的“O”. 规定：在具体任务的超图构建中，须保证在每个建模新实体开头的可能性时间步中存在“O”节点。
设计一个基于LSTM神经网络把句子构建Nested实体超图。
贪婪地在训练时根据gold标签构建一个子超图；

关于边的概率

**超弧(hyperarces)与正规边（normal edges）**区别：
edge: 单个尾部节点连接单个头部节点;
arce: 头部与尾部超过一个节点；

七，方法模型

7.1 多层Bi-LSTM

这个充当编码器

这个Bi-LSTM的前后合并是经过线性组合来完成。

7.2 顶层隐含层

包含超图思想的解码器。
这层的输入有三个信息，编码器的结果z,上一个时间步的隐状h,上个时间步的输出g.

最终结果对每个标注进行了合并

这里的k表示第k个标注

7.3 实体抽取

对于图的超弧(hyperarces)，使用一个多标注训练目标。

八. 训练

使用两个不同的多标签学习目标函数来训练模型，两个损失函数：
Softmax

Sparsemax

九. 解码（inference）

在学习阶段，每一个时间步这个最可能的标注集是以前一个时间步的gold标注为条件学习到的。而在测阶段，这个是不成立的。所以inference是使用上一个预测的时间步来代替gold的标注作为当前步的输入来获取标注集；这里使用了阈值T去决定预测的标注集合:

对于ACE数据集实体核心词建模

通过联合实体mentions与其实体词建模。

基于原模型只改变输出标签序列; 介绍了带有“H”的新标签。

十，实验

10.1 实验一 – ACE

数据集： ACE2004 and ACE2005

评估指标：找出实体及实体类型正确才算是正确

baseline:

基线	说明
MH-F (Lu and Roth,2015)	基于特征的超图结构，实体检测与联合实体，还有实体核心词抽取
Muis and Lu(2017)	只实体mention检测，没有核心词
Lu and Roth (2015)	基于CRF方法
LSTM-flflat	标准的序列标注LSTM模型，不可以处理Nested形式
LSTM-output layer	超图模型，只用了输出层依赖，对于顶层的隐含层与标注嵌入与前时间步没有依赖。

结果：

提出的模型比较SOA的结果要好。
LSTM-flat缺nested的学习能力；
只留下输出层依赖，不带入其它两个输入效果不是很好，虽然它比较之前的研究好。
sparesemax比较softmax要好。

另外对于实体Mention及它的核心词预测结果,显示本文还是优于前者。由于头的标注加入，预测的可能标注也在增加，导致结果是在没有加入头标注时效果会好一些。

10.2 实验二–GENIA

数据集：GENIA

Baselines：

引用	说明
Finkel and Manning(2009)	成份CRF解析器
Lu and Roth (2015)	超图模型
Muis and Lu (2017)	多图模型

十一，总结

提出了基于RNN模型来实现超图模型的方法。结果超出以之前的研究模型。

展望：对于这个超图结构与全局地训练的模型，去学习输出标注之间的全局依赖被感兴趣的。

对于Nested是一种新的认识吧。想法与实现方式是两个不同的概念，从这里可以很好的感受到。一个基于超图的模型，而对于实现是基于LSTM的改进来实出。细节没有来得及去深入理解，就把握了一个整体的方向。

另外，论文的行文思路是，从高处一步步细化，一步一步落实到实验。暂时没有发现这个论文的代码，如有代码再一探细节。其实对于label embedding 那层还是很不清楚的，这个怎么就可以表示多个标注了呢？还有那个V向量也没有说明一下是怎么回事？

参考

constituency parse tree（成分解析树）：A constituency parse tree breaks a text into sub-phrases.

解析树从表示整个句子的根S开始，到表示句子中的每个单词的每个叶子节点结束。使用以下缩写：

S代表句子，最高级的结构。
NP代表名词短语，包括句子的主语和宾语。
VP代表动词短语，用作谓语。
V代表动词。
D代表限定词，如定冠词the
N代表名词

sparsemax函数
sparsemax是2016年提出的。
Softmax：
softmax缺点：每个向量位置都有值。

文章From Softmax to Sparsemax:A Sparse Model of Attention and Multi-Label Classification 提出了能够输出稀疏概率的Sparsemax。

这里把输入z和某个分布p的欧式距离最小化。

by happyprince.https://blog.csdn.net/ld326/article/details/113352263