Lattice LSTM

由于中文的实体一般都是由词语组成的，所以分词与NER在中文领域具有很强的相关性，一般操作是先分词，再做词序列标注。很明显的，分词错误会导致ner的错误，尤其在开放领域，跨领域分词仍然是一个难题。

简单来说Lattice LSTM是利用字符作为输入的基础上，加上了分词的信息，就这样，没了，具体怎么加的，看一下文章接下来来讲

1、文章首先介绍了关于中文的两种实体识别的方法，主题框架都是BiLSTM+CRF，原理上个博客都介绍过了，过程就是那样，找最优路径就是维特比算法。两种方法只是LSTM的输入不同：

字向量：输入是字，缺点是没有利用相邻字之间存在的语义信息
词向量：输入就是词了，缺点就是分词错误很可能会导致实体识别的错误（不过大部分实验证明，字向量比词向量的效果好，不仅在实体识别，在其他领域文本分类等也是如此，大概是因为网络可以学习到字之间存在的语义信息）

先定义一些符号方面下面的讲解，一步一步看，绝对容易读懂，即使是复杂的公式：

s=c1, c2,…… cm，其中每个小c表示每个字符

s=w1, w2,…… wn，其中每个小w表示每个词

t(i,k)表示第i个词中的第k个字，例如“南京市长江大桥”，t(2,1)=4（长）

BIOES是标签

字向量：character-based model

字向量的表示是啥呢？

ec就是计算字向量的操作，有输入了，就可以得到双向lstm的两个方向隐含层的输出啦，那么

第j个字的输出就是两个方向的合并啦，再放入CRF就ok了。

稍微改进1：char+bichar

也就是在计算输入向量的时候把这个字和下一个字合并词的向量说是这样可以加强相邻间的语义信息。

稍微改进2：char+softword

加入分词的信息，和bichar的差别应该很明显。但这个加入的过程和Lattice存在差别。

2、词向量：word-based-model

和字向量一样，合并两个方向的h作为CRF层的输入。

integrating character representations

就是加入了字向量

稍微改进1：word + char LSTM

我个人理解这里是两层LSTM，第一层是计算每个词中所有字向量的输出作为公式

7中的第二个元素，然后呢，公式8中的元素含义：第一个->第i个词最后一个字的

正向的隐含层h；第二个->第i个词第一个字的反向的隐含层h。

稍微改进2：word + char LSTM2222222

作者说他调研了一些只使用单个LSTM获取两个方向h的word+charLSTM模型，但是没有使用高层。

稍微改进3：word + char CNN

没啥说的

3、Lattice Model

个人理解，这种模型和之前char+word的意思一样，但就是加入的方法和过程不一样，这也就导致模型学习到的内容不一样。该模型加入了word-based cells和additional gates，说白了就是新加了word单元和控制信息流的。

还有一个东西就是分词的字典D，其中wdb，e的含义是这个词的begin和end位置，例如“南京市长江大桥”中wd1，3是南京市，wd4，7是长江大桥。（气死我了，d是w的上标，b，e是w的下标,一复制黏贴全都变了，下面如果看到一连串字母，实际上是一个符号，一般情况下c、d和w是上标，c指的是字，d和w指的是词，接下来的一个或两个字母是下标，像 b，e或者一个j或者一个e）

四种向量：

input vectors：就是公式1

output hidden vectors: hcj，就是隐含层向量嘛，第j的词的

cell vectors：ccj，就是从句子开始到现在的一个信息流

gate vectors：就是LSTM的各个门

其中那个i，f，o就是输入门，忘记门和输出门，W就是模型参数矩阵，还有那个符号是激活函数。

和char-based model不同的是，新包含了词wdb，e的计算，每一个词的向量计算如下：

如何利用这个Xwb，e呢？看公式13：

这个Cwb，e是新加的cell，保留了从句子开始到现在Xwb，e的状态，大概也就是信息流，历史信息嘛。然后这里的i 和f指的的输入和忘记门，没有输出门是因为标签是在字而不是在词

我们知道，公式11中的Ccj是字方面的信息流，也就是cell，然后Cwb，e是词方面的信息流，例如对“南京市长江大桥”这句话，第7个字此时为Cc7的输入包含了Xc7(桥)、Cw6，7（大桥）和Cw4，7（长江大桥)这三方面的信息。是不是看起来字和词两者融合起来就可以得到更完善的信息了（实验结果证明是这样，那就暂且这么理解吧）。然后呢，就像上面例子，“桥”的输入包含的词信息流中包含有多个词的“大桥”“长江大桥”，所以用公式所有存在的词表达出来：

Cce中的e指的就是“桥”这个字的位置，以它为结尾的所有出现在字典D中的词。然后新加一个门Icb，e来控制每个 Cwb，e进入Cce的信息的多少。（论文中我觉得这个应该是Cce，而不是Ccb，e，因为上面已经说了，上面计算的 Cwb，e的信息是作为计算Ccj的一个输入的，所以这里应该是Cce，j和e是一个意思。而是Ccb，e右上角的c指的是字，右下角b和e指的是一个词的开始和结束位置。）

闲话扯完了，下面看具体怎么控制。

看起来虽然有点复杂，但每个元素的含义上面都已经解释清楚了，例如Cc7为桥时，Icb，e就包含两个词的信息： Ic6，7（大桥）和Ic4，7（长江大桥）。xc7我们是知道的向量计算出来这两个门之后，计算Cc7时就是公式15了，相当于来说计算的时候就不用公式11中上一个Cc6了，（我觉得是不用了，如果用了的话在公式15中根本找不到呀）而是使用之前的词信息。懂了吧。再举个例子，当j=6（大）时，不存在以“大”结尾的词，也就是说不存b，那么公式 15的计算就是公式11了。

Lattice LSTM相关推荐

nlp 命名实体识别算法_中文命名实体识别算法 Lattice LSTM
中文命名实体识别 (NER) 算法按照输入的类型,可以大致分为 Character-based (字符) 和 Word-based (单词) 两种.这两种方法都存在一些缺陷,Character-bas ...
论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法
本文转载自公众号:机器之心. 选自arXiv 作者:Yue Zhang.Jie Yang 机器之心编译参与:路.王淑婷近日,来自新加坡科技设计大学的研究者在 arXiv 上发布了一篇论文,介绍了一 ...
【项目调研+论文阅读】Lattice LSTM神经网络医学文本命名实体识别 | day7
<Lattice LSTM神经网络法中文医学文本命名实体识别模型研究>2019 文章目录一.模型步骤 1.Lattiice-LSTM分词+表征词汇 2.LSTM-CRF 经证实,英文N ...
Chinese NER Using Lattice LSTM
该模型的核心思想是:通过 Lattice LSTM 表示句子中的单词,将潜在的词汇信息融合到基于字符的 LSTM-CRF中.实际上,该模型的主干部分依然是基于字符的LSTM-CRF,只不过这个LSTM ...
论文复现_1：Chinese NER Using Lattice LSTM
论文重新读. gate recurrent cell:门控递归单元使我们的模型能够从一个句子中选择最相关的字符和单词,以获得更好的NER结果. Lattice LSTM:格子LSTM 实体识别可以看为 ...
一文详解中文实体识别模型 Lattice LSTM
每天给你送来NLP技术干货! 来自:AI算法小喵写在前面今天要跟大家分享的是西湖大学张岳老师2018年发表在顶会ACL上的一篇中文实体识别论文 Lattice LSTM. 论文名称:<Chi ...
lstm原始论文_命名实体识别NER论文调研
因为NER任务与笔者之前做的CCF互联网金融新实体识别竞赛相关,所以这两个月也调研了一些NER的算法,这两年的NER算法思想主要集中在将词典信息融入训练过程,达到减少中文语义歧义的效果. CCF互联网 ...
lattice，flat
Chinese NER Using Lattice LSTM 阅读笔记_Ono_online的博客-CSDN博客 [NER-1]-2018 ACL Lattice-LSTM_latticelstm代码 ...
Event Detection with Trigger-Aware Lattice Neural Network（论文解读）
本文针对事件抽取任务中的触发词识别和触发词分类子任务提出了可以充分利用字级别和词级别语义信息的模型Trigger-Aware Lattice Neural Network(TLNN),在ACE2005 ...
论文阅读 # Event Detection with Trigger-Aware Lattice Neural Network
这里写目录标题摘要 1.介绍 2.方法 2.1 分层表示学习 2.2 触发感知特征提取程序 2.3 序列标记器 3.实验 3.1 数据集和实验设置 3.2 总体结果 3.3 触发感知特征抽取器的作用 ...

Lattice LSTM

Lattice LSTM相关推荐

最新文章

热门文章