因为NER任务与笔者之前做的CCF互联网金融新实体识别竞赛相关,所以这两个月也调研了一些NER的算法,这两年的NER算法思想主要集中在将词典信息融入训练过程,达到减少中文语义歧义的效果。

CCF互联网金融新实体识别竞赛https://www.datafountain.cn/competitions/361

当前竞赛NER任务的baseline

BERT + BILSTM + CRF

BERT + IDCNN[1] + CRF:IDCNN可以大致理解为CNN + pooling + upsampling,可以并行化运算,训练速度会比BILSTM快很多,但不会跟CNN一样,CNN切换pooling与upsampling会损失一部分信息。(pooling减小图像尺寸增大感受野, upsampling增大图像尺寸还原原始尺寸,两者在运算过程中不可逆,因此会导致一部分信息损失。)

IDCNN原理:本质和CNN一样,但是通过在卷积核之间增加“空洞”(即0),使IDCNN的卷积在不需要POOLing的情况下增加感受野,增大看到信息的范围。

缺点:1)会丢失局部信息; 2)虽说可以看得比较远,但是有时候远距离的信息并没有相关性。

应用场景:1)需要全局信息的图像任务; 2)需要解决长距离信息依赖的语音与文本任务。

目前调研了13篇NER论文,主要是看哪些论文能否嵌入金融新实体竞赛的baseline框架,达到提高代码复用率且实验结果佳的效果,其次是有些论文复现难度过高,只能做一些原理的分享。

1

改进结构提升效果

[2018]Chinese NER Using Lattice LSTM

原理:利用词典的信息将链式结构转成图结构,多出来的节点就是词典信息,在训练过程中更新权重。

缺点:①不支持batch;

②如果识别任务是识别新词,效果应该也不高,比如这次竞赛要求识别金融新实体,基本上都是新词。

③过多的单词会让基于字符的NER模型退化成基于单词的NER模型,这样子就会遭受分词错误的影响。

[2019 June]An Encoding Strategy Based Word Character LSTM for Chinese NER

代码链接

原理:利用词典的信息将链式结构转成图结构,多出来的节点就是词典信息,在训练过程中更新权重。WC-LSTM与Lattic LSTM思想一致,但基于Lattic LSTM的缺点进行了一些修正。WC-LSTM利用了四种不同的策略来将单词信息编码为固定大小的矢量,使其可以分批训练并适应各种应用场景。

改进方法:Lattic LSTM之所以不能batch训练的原因是每个字之间增加的节点数目不一致,可能0个也可能多个。WC-LSTM直接硬性规定每个字之间有且仅有一个节点来代表词信息,如果字与字之间没有词信息就用来表示,这样的修改让结构统一,因此能使用batch训练。最后词向量和字向量concat,输出最终向量。(如下图)

单词编码策略

  • Shortest Word First

  • Longest Word First

  • Average:前两者的均值

  • Self-Attention

缺点:仍然不能解决新词问题

数据集实验结果对比:OntoNotes、MSRA与WeiboNER(结果比Lattic LSTM好)

[2019 January]A Neural Multi-digraph Model for Chinese NER with Gazetteers

代码地址

原理:利用地名词典和图神经网络融入单词信息给NER系统。

模型结构:多图结构 + 适配的GGNN嵌入层 + BILSTM + CRF

  • 多图结构:添加有向边来完成图的结构,节点权重随训练变化。

  • 适配的GGNN嵌入层:处理多图结构的节点信息,权重由GRU来更新。

  • BILSTM+CRF: 输出序列化结果

信息转换:地名与文本经过多图结构转成图信息,图信息经过GGNN嵌入层输出特征向量。

① 初始状态ho由公式1确定,Wg是词典的词嵌入,Wc是字典的字嵌入

② 图结构由邻接矩阵存储,方便每一步训练时的查找

③ 邻接矩阵的边代表不同标签的权重,由训练过程去确定每列对任务的贡献程度(公式2)

④ 得到的Ho由GRU(公式(3)~(8))更新,完成一次训练

⑤ 数据集实验结果对比:OntoNotes、MSRA与WeiboNER(结果比WC-LSTM好)

2

添加结构提升效果

[2018]Graph_Convolutional_Networks_for_Named_Entity_Recognition.pdf

① 单纯添加GCN结构来捕捉字词间的依赖关系

② 效果有限

代码

[2019 April]CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition

模型结构

Embedding + Convolution Attention + GRU + Global SELF-Attention + CRF

Convolution Attention:对字词信息进行编码

Global SELF-Attention: 捕获长序列句子级别的关系

数据集实验结果对比

OntoNotes、MSRA与WeiboNER(weibo数据集:比WC-LSTM好,其他数据集:均不如WC-LSTM)

3其他

有一些用对抗的思想去做的NER模型,效果也没比GNN好,结构挺复杂的,有些还没有代码,笔者也不想复现,还有一些纯粹是模型效果不怎么好。笔者也不做过多介绍了。

笔者把论文名字放上来,大家需要看的话,可以去翻一下~

Adversarial Transfer Learning for Chinese Named Entity Recognition with Self-Attention Mechanism

Neural Chinese Named Entity Recognition via
CNN-LSTM-CRF and Joint Training with Word Segmentation

Towards Open-Domain Named Entity Recognition via Neural Correction Models

R-TRANSFORMER: RECURRENT NEURAL NETWORK
ENHANCED TRANSFORMER

4总结

因此,经过对比,当前改进结构是提升整体NER模型效果的最佳方法,其中,利用图神经网络的NER的模型效果最好。最后,对NER实体识别感兴趣的同学,可以翻一下命名实体识别的综述文章:

A Survey on Deep Learning forNamed Entity Recognition

参考文献

[1] Fast and Accurate Entity Recognition with Iterated Dilated Convolutions

今天的总结就到这里

下期见~

关注我的微信公众号~不定期更新相关专业知识~

—END—

内容 | 阿力阿哩哩

编辑 | 阿璃

lstm原始论文_命名实体识别NER论文调研相关推荐

  1. 命名实体识别 NER 论文综述:那些年,我们一起追过的却仍未知道的花名 (一)...

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要24分钟 跟随小博主,每天进步一丢丢 作者: 龚俊民(昵称: 除夕) 学校: 新南威尔士大学 方向: 自然语言处理和可解释学习 知乎: http ...

  2. 信息抽取实战:命名实体识别NER【ALBERT+Bi-LSTM模型 vs. ALBERT+Bi-LSTM+CRF模型】(附代码)

    实战:命名实体识别NER 目录 实战:命名实体识别NER 一.命名实体识别(NER) 二.BERT的应用 NLP基本任务 查找相似词语 提取文本中的实体 问答中的实体对齐 三.ALBERT ALBER ...

  3. 【命名实体识别(NER)】(1):命名实体识别综述

    什么是命名实体识别? 命名实体识别(Named Entity Recognition,简称NER),又称作"专名识别",是自然语言处理中的一项基础任务,应用范围非常广泛.命名实体一 ...

  4. 用隐马尔可夫模型(HMM)做命名实体识别——NER系列(二)

    上一篇文章里<用规则做命名实体识别--NER系列(一)>,介绍了最简单的做命名实体识别的方法–规则.这一篇,我们循序渐进,继续介绍下一个模型--隐马尔可夫模型. 隐马尔可夫模型,看上去,和 ...

  5. 逐行讲解CRF实现命名实体识别(NER)

    文章标题 本文概述 NER介绍 代码详解 任务 导入库 加载数据集 构造特征字典 数据处理 模型训练 模型验证 模型参数 备注 随机搜索RandomizedSearchCV 本文概述 使用sklear ...

  6. 命名实体识别NER探索(1)

    命名实体识别NER探索(1) 命名实体识别(Named-entity recognition ,NER)(也称为实体识别.实体分块和实体提取)是信息提取的一个子任务,旨在将非结构化文本中提到的命名实体 ...

  7. 隐马尔可夫模型(HMM)实现命名实体识别(NER)

    隐马尔可夫模型(HMM)实现命名实体识别(NER) 一.命名实体识别(Named Entity Recognition,NER) 识别文本中具有特定意义的实体,包括人名.地名.机构名.专有名词等等 在 ...

  8. NLP命名实体识别NER数据准备及模型训练实例

    NLP命名实体识别NER数据准备及模型训练实例 目录 NLP命名实体识别NER数据准备及模型训练实例 ​ 方案一

  9. NLP命名实体识别(NER)代码实践

    NLP命名实体识别(NER)开源实战教程  引 https://blog.csdn.net/xiaosongshine/article/details/99622170 NER学习系列之-BILSTM ...

最新文章

  1. 习题8-6 删除字符 (20 分)
  2. json数据解析_VBA 实践指南 -- Split函数解析Json数据
  3. weblogic集群安装心得-程序包发布
  4. 11.15日工作总结(补)
  5. Java内存溢出异常(下)
  6. 一个好的桌面图标的网站
  7. matlab求z score,matlab标准化和反标准化——zscore
  8. 我的世界服务器物品管理,我的世界NEI物品管理器mod详细图文使用教程
  9. 使用matlab的appdesigner绘制Steward并联机构
  10. implicit declaration of function —— 函数隐式声明 警告
  11. Unity3D 局部截图、全屏截图、带UI截图三种方法
  12. GMIS 2017大会圆桌论坛:机器智能时代的全球化进程
  13. asp.net 中 使用ajax 和浏览器的关系
  14. 计算机学院心理节活动主题,计算机学院举行心理健康教育主题团体活动
  15. 国开教育学形考任务2试题1试题及答案
  16. C博客作业00--我的第一篇博客
  17. php图片上传为base64,php实现base64图片上传方式实例代码
  18. 【MySQL】mysql数据库操作指南
  19. VR概述及初识Unity 3D
  20. psv摇杆测试软件,adrenaline专用右摇杆控制视角插件发布, 转

热门文章

  1. 点击按钮回到页面顶部或者某个高度时的问题,JQUERY
  2. 关于opencv的几个小总结
  3. 关于SQL Server 2005 的自动远程数据库备份
  4. 最小生成树(hdu1233还是畅通工程)
  5. 【报告分享】2020年创新报告-埃森哲.pdf(附下载链接)
  6. python编译:setup.py添加.h头文件或者库的搜索路径
  7. Python实战从入门到精通第十九讲——自定义字符串的格式化
  8. 百度提前批算法工程师面筋!效率有、高
  9. 删除mysql临时文件_mysql自动备份数据库与自动删除临时文件
  10. 漫谈广告竞价模式(六)