Abstract

我们研究了一种篱笆(Lattice)结构的LSTM模型为中文NER任务。它能够编一序列的a sequence 的characters 和words。相对于characters编码,它能够加载words信息;相对于words编码,它不用承受 分割误差(segmentation errors)。门控循环细胞单元(gated recurren cell )使我们可以选择句子中最相关的characters和words,以获得最好的结果。各种实验结果表明,我们的模型比 characters类和words类的模型都要棒。

1 Introduction

NER近些年来很火,这是一个序列标注任务,需要预测实体编辑和类别标签。目前的 state-of-the-art 模型是 LSTM-CRF模型,它用character信息来预测words。
中文NER是一般需要先进行word segment的,然而,segment-> NER 过程会遭受 segment的误差传播,即segment 误差会影响NER的识别结果。
目前已经证实,character类的模型 outperform word类的模型。character类的模型有一个缺点就是:word信息没有被利用,而这些信息应该是很有用的。为了解决这个问题,我们提出了篱笆(Lattice)结构的LSTM-CRF模型。如图1所示,我们用字典构建了一个匹配句子的 charater-word 篱笆网络,结果,word信息,如 长江大桥、长江、大桥,可以被用来消除 潜在的相关命名实体,如 江大桥。

因为在lattice中,word-character path是指数级的,为此,我们搞了一个Lattice-LSTM结构来自动控制信息流。如图2所示,对每个character来说,门控单元被用来动态的routine 来自不同路径的信息。

结果证明,我们的模型效果超棒。

2 Related Work

3 Model

Follow 最好的英文NER任务,我们用 LSTM-CRF 作为我们的主要网络结构,用BIOES作为tagging架构。

3.1 Character-Based Model



在这里,ece^cec代表一个 character embedding lookup table。
用的是双向LSTM来做特征提取,即hcj=[hcj←,→hcj]h_c^j=[h_c^j \leftarrow ,\rightarrow h_c^j]hcj=[hcj,hcj]。接着,一个标准的CRF被用在hcjh_c^jhcj上为序列标注。

  • Char + bichar.

    这里,ebe^beb代表一个charater bigram lookup table。
  • Char + softword.
    已经被证实,用segment作为一个soft特征,确实可以提高 character类NER任务的表现。

    这里,ese^ses代表一个 segmentation label embedding lookup table。seg(cj)seg(c_j)seg(cj)代表 cjc_jcj上的segment label,它是一个word segmentor提供的,用BMES来作表征。

3.2 Word-Based Model



在这里,ewe^wew代表一个word embedding lookup table. 用的是双向LSTM来做特征提取,即hcj=[hcj←,→hcj]h_c^j=[h_c^j \leftarrow ,\rightarrow h_c^j]hcj=[hcj,hcj]。接着,一个标准的CRF被用在hcjh_c^jhcj上为序列标注。
新点:Integrating character representations

character CNN和LSTM一直以来可以被表示 一个word中的character表征,这里我们用了它们2个。上式子中 xjcx_j^cxjc代表此wjw_jwj种的character表征。

  • Word + char LSTM.
    令每个输入character cjc_jcj embedding为ec(cj)e^c(c_j)ec(cj),我们用双向LSTM来学习word中每个character的双向隐层表示,最后词wiw_iwi的character表示为:

    其中,len(i)是词wiw_iwi的character长度。
  • Word + char LSTM
    我们研究“ Word + char LSTM”的一个变体,即 用一个single LSTM来得到每个cjc_jcj的隐层表征hjc←h_j^c \leftarrowhjc→hjc\rightarrow h_j^chjc。将 character hidden states 融入 word representation 的方式和上面相同。
  • Word + char CNN
    令每个输入character cjc_jcj embedding为ec(cj)e^c(c_j)ec(cj),那么每word的character表征向量 xicx_i^cxic 的表示为:

    其中,ke=3是卷积核的大小,max意味着 max pooling.

3.3 Lattice Model

咱的模型看起来像是 character类模型的扩展,添加了word信息和门控单元。

如第2节所示,我们用自动分割的大原始文本来构建词典D。模型的基本循环单元是由一个character单元向量 cjcc_j^ccjc 和一个隐藏向量hjch_j^chjc 构成的。这基本的循环LSTM函数是:
]
其中,ijci_j^cijcfjcf_j^cfjcojco_j^cojc分别代表输入门、遗忘门、输出门。与character类模型不同的是,现在cjcc_j^ccjc的计算考虑了句子中的词典级次级序列wb,edw_{b,e}^dwb,ed,每个wb,edw_{b,e}^dwb,ed的表征公式如下:

其中,ewe^wew代表着 word embedding lookup table.
另外,cb,ewc_{b,e}^wcb,ew 被用来表示 xb,ewx_{b,e}^wxb,ew 的循环状态,cb,ewc_{b,e}^wcb,ew 的计算公式如下:

这里没有输出门,因为序列标注是对 character level 而言的。
with cb,ewc_{b,e}^wcb,ew,这里就有了更多的数据流入到 character cjcc_j^ccjc。例如,在figure2中,c7cc_7^cc7c 的输入就有 x7cx_7^cx7c(桥)、c6,7wc_{6,7}^wc6,7w(大桥)、c4,7wc_{4,7}^wc4,7w(长江大桥)。我们连接所有的 cb,ewc_{b,e}^wcb,ew with b∈{b′∣wb′,ed∈D}b \in \{ b'|w_{b',e}^d \in D \}b{bwb,edD} 和这细胞状态cecc_e^ccec。我们再用一个门控单元 ib,eci_{b,e}^cib,ec来控制 子序列 cb,ewc_{b,e}^wcb,ew 流入到 cb,ecc_{b,e}^ccb,ec的contribution。

细胞单元的值 cjcc_j^ccjc 的计算公式因此变为:

在公式15中,这门控值 ib,jci_{b,j}^cib,jcijci_j^cijc被正则化为 αb,jcα_{b,j}^cαb,jcαjcα_j^cαjc,计算公式如下所示:

这最后的隐藏向量hjch_j^chjc仍然和公式11中一样。

3.4 Decoding and Training

CRF层是建立在 h1h_1h1h2h_2h2hμh_μhμ之上,对应的标签序列 y=l1,l2,...,lμy = l_1,l_2,...,l_μy=l1,l2,...,lμ的概率为:

其中,y′y'y代表了一条被任意标注的序列。训练损失函数为:

其中,代表着参数集合。

4 Experiments

我们做了大量实验。

4.1 Experimental Settings

Data:OntoNotes 4、MSRA、Weibo NER、a Chinese resume datase。
Segmentation:对OntoNotes 4 和MSRA来讲,其训练集上的 黄金标注分割是可以得到的。对OntoNotes 来讲,其验证集和测试集上的黄金分割也是可以得到的,但是,对MSRA来讲,其测试集得不到 黄金分割,Weibo 和 resume 数据集也得不到。于是,我们采用 神经网络分词器 来自动进行分割。具体的,针对OntoNotes 4 和MSRA,我们训练分词器在它们各自的训练集上;对Weibo 和 resume ,我们采用了 Yang et al 的最好的模型。
Word Embeddings:我们用word2vec 预训练了word embedding,然后在NER训练中进行微调;我们用word2vec 预训练了character embedding 和 character bigram embedding,然后在NER训练中进行微调;
Hyper-parameter settings:参数设置如图所示。针对每个具体的数据集,没有用网格搜索进行微调。

4.2 Development Experiments
结果如下所示:

其中,值得注意的是:
(1)a word-based LSTM CRF baseline 给出了F1值为64.12%,比 a character-based LSTM CRF baseline 要高。
(2)A CNN representation of character sequences gives a slightly higher F1-score compared to LSTM character representations.
(3)在 word embedding中,当给char CNN增加 bichar后,F1值却下降了。考虑原因为:CNN本身已经抓住了 character 级的N-gram信息。
(4)Lattice-based 结果最棒。值得注意的是:当bigram 信息加强后,F1值并没有提升。考虑其原因: words are better sources of information for character disambiguation compared with bigrams, which are also ambiguous.
(5)Lattice-based 表现超过 char+subword,说明:ws the advantage of lattice word information as compared with segmentor word information

4.3 Final Results

用4.2节得到的3种类最优模型和历史上那些名模一起 来在四种数据上做实验。

4.4 Discussion

F1 against sentence length

值得注意的是以下几点:
(1)The word-based baseline gives substantially higher F1-scores over short sentences, but lower F1-scores over long sentences, which can be because of lower segmentation accuracies over longer sentences.
(2)The accuracy of lattice also decreases as the sentence length increases, which
can result from exponentially increasing number of word combinations in lattice.
Case Study
注意到word+char+bichar和lattice有相同的word信息源,区别在于:word+char+bichar首先使用词汇是在分词器中,这会施加硬约束(即,固定词)到NER任务中。相比之下,lattice LSTM可以自由考虑所有词典汇词。

5 Conclusion

由于lattice方法和word segment是独立的,所以在利用word信息上对NER消歧更有效果。

Chinese NER Using Lattice LSTM 论文解读相关推荐

  1. 论文复现_1:Chinese NER Using Lattice LSTM

    论文重新读. gate recurrent cell:门控递归单元使我们的模型能够从一个句子中选择最相关的字符和单词,以获得更好的NER结果. Lattice LSTM:格子LSTM 实体识别可以看为 ...

  2. Chinese NER Using Lattice LSTM

    该模型的核心思想是:通过 Lattice LSTM 表示句子中的单词,将潜在的词汇信息融合到基于字符的 LSTM-CRF中.实际上,该模型的主干部分依然是基于字符的LSTM-CRF,只不过这个LSTM ...

  3. 循环神经网络LSTM论文解读

    版权声明:本文为CSDN博主「了不起的赵队」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明. 原文链接:https://blog.csdn.net/zhaojc199 ...

  4. 论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法

    本文转载自公众号:机器之心. 选自arXiv 作者:Yue Zhang.Jie Yang 机器之心编译 参与:路.王淑婷 近日,来自新加坡科技设计大学的研究者在 arXiv 上发布了一篇论文,介绍了一 ...

  5. 论文阅读笔记-FLAT: Chinese NER using Flat-Lattice Transformer

    论文地址:https://arxiv.org/pdf/2004.11795.pdf github地址:https://github.com/LeeSureman/Flat-Lattice-Transf ...

  6. Event Detection with Trigger-Aware Lattice Neural Network(论文解读)

    本文针对事件抽取任务中的触发词识别和触发词分类子任务提出了可以充分利用字级别和词级别语义信息的模型Trigger-Aware Lattice Neural Network(TLNN),在ACE2005 ...

  7. nlp 命名实体识别 算法_中文命名实体识别算法 Lattice LSTM

    中文命名实体识别 (NER) 算法按照输入的类型,可以大致分为 Character-based (字符) 和 Word-based (单词) 两种.这两种方法都存在一些缺陷,Character-bas ...

  8. 一文详解中文实体识别模型 Lattice LSTM

    每天给你送来NLP技术干货! 来自:AI算法小喵 写在前面 今天要跟大家分享的是西湖大学张岳老师2018年发表在顶会ACL上的一篇中文实体识别论文 Lattice LSTM. 论文名称:<Chi ...

  9. 【论文解读系列】NER方向:FLAT (ACL 2020)

    更多.更及时内容欢迎留意微信公众号: 小窗幽记机器学习 文章目录 模型结构 将Lattice结构平铺 span的相对位置编码 FLAT(2020) FLAT 出自 ACL 2020 FLAT: Chi ...

  10. 论文阅读《FLAT:Chinese NER Using Flat-Lattice Transformer》

    总结 flat的源码你确定你能看懂??各种调库的操作对小白也太不友好了吧~ 本博客分成两部分,第一部分(part1)主要描述了一下复现flat可以参考的文档,数据集等:第二部分(part2)主要讲了论 ...

最新文章

  1. h5列表页的性能优化
  2. Wondows环境下配置Tomat
  3. 黑苹果hp有声音hdmi无声音_黑科技!不戴耳机也能独享声音!以色列公司推出无耳机传输音乐...
  4. php遍历中记录所有,php遍历类中包含的所有元素的方法
  5. [react] 请描述下事件在react中的处理方式是什么?
  6. 机器学习算法总结--K近邻
  7. C# 读取照片的EXIF信息
  8. Linux服务器安全配置实例(二)用户账户权限配置
  9. 10,求一个double型数据base的整数次方《剑指offer》
  10. 打开html文件图片为什么没有_提高网站打开速度秘诀:压缩html,Javascript和CSS文件...
  11. 【前端基础】querySelector
  12. angularjs ng-include
  13. 10分钟带你读完人工智能的三生三世
  14. 华科校园网内ubuntu12.04用锐捷客户端联网流程详解
  15. HAProxy 简介及配置文件详解
  16. web安全攻防学习之1-渗透测试信息收集
  17. A. Boredom(线性dp基础题)
  18. 一文快速了解MassGrid网络
  19. 多文件夹随机抽取图片并另存多个文件夹
  20. 【分享】QY-IMX8M主板简介

热门文章

  1. CMOS逻辑门电路的重要技术参数
  2. 标准盒子模型和IE盒子模型
  3. 大数据可视化-Tableau
  4. 2017计算机办公自动化试题,【2017年整理】计算机办公自动化试题.doc
  5. ZLL的每周一更(maybe)--浏览器的运行机制
  6. torch学习 (二十九):周杰伦歌词数据集测试循环神经网络
  7. Python基础入门:函数--阿里云天池
  8. AWS — 公有云网络模型
  9. vue大屏项目开发框架dataV
  10. sis最新ip地址2020入口一_【新版教材】2020最新人教版高中生物教材必修一电子课本...