本文转载自公众号:机器之心


选自arXiv

作者:Yue Zhang、Jie Yang

机器之心编译

参与:路、王淑婷

近日,来自新加坡科技设计大学的研究者在 arXiv 上发布了一篇论文,介绍了一种新型中文命名实体识别方法,该方法利用 Lattice LSTM,性能优于基于字符和词的方法。与基于字符的方法相比,该模型显性地利用词和词序信息;与基于词的方法相比,lattice LSTM 不会出现分词错误。这篇论文已被 ACL 2018 接收。

作为信息抽取的一项基本任务,命名实体识别(NER)近年来一直受到研究人员的关注。该任务一直被作为序列标注问题来解决,其中实体边界和类别标签被联合预测。英文 NER 目前的最高水准是使用 LSTM-CRF 模型实现的(Lample et al., 2016; Ma and Hovy, 2016; Chiu and Nichols, 2016; Liu et al., 2018),其中字符信息被整合到词表征中。

中文 NER 与分词相关。命名实体边界也是词边界。执行中文 NER 的一种直观方式是先执行分词,然后再应用词序列标注。然而,分割 → NER 流程可能会遇到误差传播的潜在问题,因为 NE 是分割中 OOV 的重要来源,并且分割错误的实体边界会导致 NER 错误。这个问题在开放领域可能会很严重,因为跨领域分词仍然是一个未解决的难题(Liu and Zhang, 2012; Jiang et al., 2013; Liu et al., 2014; Qiu and Zhang, 2015; Chen et al., 2017; Huang et al., 2017)。已有研究表明,中文 NER 中,基于字符的方法表现要优于基于词的方法(He and Wang, 2008; Liu et al., 2010; Li et al., 2014)。

图 1:词-字符网格。


基于字符的 NER 的一个缺陷在于无法充分利用显性的词和词序信息,而它们是很有用的。为了解决这一问题,本论文研究者利用 lattice LSTM 来表征句子中的 lexicon word,从而将潜在词信息整合到基于字符的 LSTM-CRF 中。如图 1 所示,研究者使用一个大型自动获取的词典来匹配句子,进而构建基于词的 lattice。因此,词序如「长江大桥」、「长江」和「大桥」可用于语境中的潜在相关命名实体消歧,如人名「江大桥」。

由于在网格中存在指数级数量的词-字符路径,因此研究者利用 lattice LSTM 结构自动控制从句子开头到结尾的信息流。如图 2 所示,门控单元用于将来自不同路径的信息动态传送到每个字符。在 NER 数据上训练后,lattice LSTM 能够学会从语境中自动找到更有用的词,以取得更好的 NER 性能。与基于字符和基于词的 NER 方法相比,本论文提出的模型的优势在于利用利用显性的词信息而不是字符序列标注,且不会出现分词误差。

图 2:Lattice LSTM 结构。


结果显示该模型显著优于基于字符的序列标注模型和使用 LSTMCRF 的基于词的序列标注模型,在不同领域的多个中文 NER 数据集上均获得最优结果。

模型


研究者遵循最好的英文 NER 模型(Huang et al., 2015; Ma and Hovy, 2016; Lample et al., 2016),使用 LSTM-CRF 作为主要网络结构。形式上,指定输入句子为 s = c_1, c_2, . . . , c_m,其中 c_j 指第 j 个字符。s 还可以作为词序列 s = w_1, w_2, . . . , w_n,其中 w_i 指句子中的第 i 个词,使用中文分词器获得。研究者使用 t(i, k) 来指句子第 i 个词中第 k 个字符的索引 j。以图 1 中的句子为例。如果分词是「南京市 长江大桥」,索引从 1 开始,则 t(2, 1) = 4 (长),t(1, 3) = 3 (市)。研究者使用 BIOES 标记规则(Ratinov and Roth, 2009)进行基于词和基于字符的 NER 标记。

图 3:模型。


表 4:在开发集上的结果。


表 5:在 OntoNotes 上的主要结果。


论文:Chinese NER Using Lattice LSTM


  • 论文链接:https://arxiv.org/abs/1805.02023

  • 项目链接:https://github.com/jiesutd/LatticeLSTM

摘要:我们研究了用于中文命名实体识别(NER)的 lattice LSTM 模型,该模型对输入字符序列和所有匹配词典的潜在词汇进行编码。与基于字符的方法相比,该模型显性地利用词和词序信息。与基于词的方法相比,lattice LSTM 不会出现分词错误。门控循环单元使得我们的模型能够从句子中选择最相关的字符和词,以生成更好的 NER 结果。在多个数据集上的实验证明 lattice LSTM 优于基于词和基于字符的 LSTM 基线模型,达到了最优的结果。



OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法相关推荐

  1. 论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:EMNLP 2018 链接:https://www.aclweb.org/anthology/D18-1034 问题背景与动 ...

  2. 【项目调研+论文阅读】基于BERT的中文命名实体识别方法[J] | day6

    <基于BERT的中文命名实体识别方法>王子牛 2019-<计算机科学> 文章目录 一.相关工作 二.具体步骤 1.Bi-LSTM 2.CRF结构 三.相关实验 1.数据集 2. ...

  3. 论文浅尝 | 利用常识知识图谱进行多跳推理的语言生成方法

    笔记整理 | 朱珈徵,天津大学硕士. 链接:https://arxiv.org/pdf/2009.11692.pdf 动机 尽管生成式预训练语言模型在一系列文本生成任务上取得了成功,但在生成过程中需要 ...

  4. nlp 命名实体识别 算法_中文命名实体识别算法 Lattice LSTM

    中文命名实体识别 (NER) 算法按照输入的类型,可以大致分为 Character-based (字符) 和 Word-based (单词) 两种.这两种方法都存在一些缺陷,Character-bas ...

  5. 阿里AAAI2018论文解读:轻量网络训练框架、GAN中文命名实体识别、英俄翻译等...

    1. 火箭发射:一种有效的轻量网络训练框架<Rocket Launching: A Universal and Efficient Framework for Training Well-per ...

  6. 【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记

    作者及其单位:北京邮电大学,张俊遥,2019年6月,硕士论文 摘要 实验数据:来源于网络公开的新闻文本数据:用随机欠采样和过采样的方法解决分类不均衡问题:使用BIO格式的标签识别5类命名实体,标注11 ...

  7. 【论文泛读164】MECT:基于多元数据嵌入的中文命名实体识别交叉变换器

    贴一下汇总贴:论文阅读记录 论文链接:<MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Enti ...

  8. 「自然语言处理(NLP)论文解读」中文命名实体识别(Lattice-LSTM模型优化)

    来源:AINLPer微信公众号 编辑: ShuYini 校稿: ShuYini 时间: 2019-8-27 引言     今天主要和大家分享一篇关于中文命名实体识别的文章,本文分析Lattice-LS ...

  9. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

最新文章

  1. linux 测试各大网站速度curl
  2. 探秘早期的FPGA内部构造
  3. Java内存溢出详解
  4. php多维数组打印出最长的数组,将php中的多维数组打印到html表中
  5. CSS3---选择器
  6. UA MATH571B 试验设计V 2K析因设计简介
  7. cmd 顺序启动服务_CMD生疏了?教你10招酷酷的Windows命令行指令
  8. 2020年旷世校招JAVA岗笔试第二题
  9. 博为峰JavaEE技术文章 —— Hibernate域模型(2)
  10. 排序算法杂谈(三) —— 归并排序的非递归实现
  11. mysql group和order_mysql 用 group by 和 order by同时使用
  12. Smart Form Tutorial(适用新手学习)
  13. Mysq 隔离级别操作
  14. MyBatis 安装下载 及入门案例
  15. pandoc如何使用自定义样式导出docx文档
  16. usbos在服务器上不能引导,USBOS V3.0.2021.07.10
  17. 面试时被问有没有别家offer,回答没有,面试总是挂!回答有,就说我是面试选手,欺骗公司!...
  18. react的useMemo 和 vue3的computed
  19. 固态和机械硬盘组raid_SSD+机械硬盘Raid 0成最佳搭配?_浦科特 PX-M5Pro_固态硬盘评测-中关村在线...
  20. 【Java实例】王者荣耀阵容展示

热门文章

  1. 从单片机步入Linux之文件系统的构建
  2. 我妈在深圳的这些日子
  3. java ognl表达式_java -------ognl表达式入门
  4. python中协程与函数的区别_python 协程与go协程的区别
  5. NIO之ByteBuffer_NIO之网络IO_与ChannelNetty初窥门径
  6. 检测范围_论文检测系统的检测范围有哪些
  7. python subprocess communicate_Python中的Subprocess模块
  8. l380废墨收集垫已到使用寿命_湖北雨水收集系统定制
  9. 绿盟防火墙配置手册_双链路环境下不同品牌防火墙更换案例分享
  10. react父子组件通信案例