【每周NLP论文推荐】 NLP中命名实体识别从机器学习到深度学习的代表性研究
NER是自然语言处理中相对比较基础的任务,但却是非常重要的任务。在NLP中,大部分的任务都需要NER的能力,例如,聊天机器人中,需要NER来提取实体完成对用户输入的理解;在信息提取任务中,需要提取相应的实体,以完成对信息的抽取。
本篇介绍NER中常用的方法,从常用的机器学习方法到深度学习的方法。
作者&编辑 | 小Dream哥
1 早期的HMM
早期的一篇介绍HMM在NER中的应用,实验效果还可以。现在还有一些实体识别有用到HMM,读此文对于了解NER的发展有一定的好处。
[1] Su, Jian , and J. Su . "Named entity recognition using an HMM-based chunk tagger." Proc Acl (2002):473-480.
2 主流NER架构LSTM +CRF
随着深度学习的兴起,LSTM+CRF变成NER任务的主流方法,下面是一篇较为典型的介绍的LSTM+CRF进行NER任务的文章。
[2] Huang, Zhiheng , W. Xu , and K. Yu . "Bidirectional LSTM-CRF Models for Sequence Tagging." Computer Science (2015).
3 讨论了CNN进行NER任务
在NLP任务中用CNN进行特征提取一直不是主流,这篇论文在NER中引入CNN。
[3] Chiu, Jason P. C. , and E. Nichols . "Named Entity Recognition with Bidirectional LSTM-CNNs." Computer Science (2015).
4 空洞卷积在NER中的应用
因为传统CNN对长序列的输入特征提取能力偏弱,有研究者提出将Dilated Convolutions(空洞卷积)应用在NER中的想法。空洞卷积可以加大感受野,提高模型的训练和预测速度。
[4] Emma Strubell Patrick Verga. Fast and Accurate Entity Recognition with Iterated Dilated Convolutions. 2017
5 Lattice LSTM
中文的NER与英文不太一样,中文NER问题很大程度上取决于分词的效果,比如实体边界和单词的边界在中文NER问题中经常是一样的。
所以在中文NER问题中,有时通常先对文本进行分词然后再预测序列中单词的类别。这样一来会导致一个问题,即在分词中造成的错误会影响到NER的结果。基于字向量的模型能够避免上述问题,但因为单纯采用字向量,导致拆开了很多并不应该拆开的词语,从而丢失了它们本身的内在信息。
此文提出一种用于中文NER的LSTM的格子模型,与传统使用字向量的模型相比,它提出的模型显式地利用了字序列之间的关系,能够很好的避免分词错误带来的影响。
[5] Yue Zhang, Jie Yang. Chinese NER Using Lattice LSTM. 2018
6 实体识别与实体匹配
实体匹配是指将识别到的实体与知识库或者图谱中实体进行匹配与映射。因此实体匹配与识别是两个相关性非常高的任务,通过实体匹配,识别到的实体与现实中的概念相连接。这篇论文将实体匹配与识别统一起来训练,认为两个任务一起学习,能够提升两个任务的准确率。
[6] Pedro Henrique Martins, Zita Marinho. Joint Learning of Named Entity Recognition and Entity Linking. 2019.
7 引入BERT及attention
引入了很多新的概念到命名实体识别中,例如BERT,Attention。感兴趣的同学可以看一看,会有蛮大的收益。
[7] Anton A. Emelyanov, Ekaterina Artemova. Multilingual Named Entity Recognition Using Pretrained Embeddings, Attention Mechanism and NCRF. arXiv preprint arXiv:1906.09978v1 2019
8 AutoNER
论文提出了一个无需人工标注就可以自动标记数据并训练NER的模型--AutoNER。实验表明,AutoNER训练的模型在3个数据集上均与有监督的benchmark相当。感兴趣的同学可以参考下。
[8] Jingbo Shang, Liyuan Liu. Learning Named Entity Tagger using Domain-Specifific Dictionary. arXiv preprint arXiv:1809.03599v1 2018
9 如何获取文章与交流
找到有三AI开源项目即可获取。
https://github.com/longpeng2008/yousan.ai
文章细节众多,阅读交流都在有三AI-NLP知识星球中进行,感兴趣可以加入,扫描下图中的二维码即可。
总结
以上就是关于NER的一些重要论文,下一期我们将推荐语义匹配相关的研究。
转载文章请后台联系
侵权必究
往期精选
【NLP】自然语言处理专栏上线,带你一步一步走进“人工智能技术皇冠上的明珠”。
【NLP】用于语音识别、分词的隐马尔科夫模型HMM
【NLP】用于序列标注问题的条件随机场(Conditional Random Field, CRF)
【NLP】经典分类模型朴素贝叶斯解读
【NLP】 NLP专栏栏主自述,说不出口的话就交给AI说吧
【NLP】 深度学习NLP开篇-循环神经网络(RNN)
【NLP】 NLP中应用最广泛的特征抽取模型-LSTM
【NLP】 聊聊NLP中的attention机制
【NLP】 理解NLP中网红特征抽取器Tranformer
【每周NLP论文推荐】从预训练模型掌握NLP的基本发展脉络
【技术综述】深度学习在自然语言处理中的应用发展
【每周NLP论文推荐】 NLP中命名实体识别从机器学习到深度学习的代表性研究相关推荐
- 【NLP】一文了解命名实体识别
导读:从1991年开始,命名实体识别逐渐开始走进人们的视野,在各评测会议的推动下,命名实体识别技术得到了极大地发展,从最初的基于规则和字典的方法,到现在热门的注意力机制.图神经网络等方法,命名实体识别 ...
- NLP命名实体识别开源实战教程 | 深度应用
作者 | 小宋是呢 来源 | CSDN博客 近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务-命名实体识 ...
- 「自然语言处理(NLP)论文解读」中文命名实体识别(Lattice-LSTM模型优化)
来源:AINLPer微信公众号 编辑: ShuYini 校稿: ShuYini 时间: 2019-8-27 引言 今天主要和大家分享一篇关于中文命名实体识别的文章,本文分析Lattice-LS ...
- 【NLP实战系列】Tensorflow命名实体识别实战
实战是学习一门技术最好的方式,也是深入了解一门技术唯一的方式.因此,NLP专栏计划推出一个实战专栏,让有兴趣的同学在看文章之余也可以自己动手试一试. 本篇介绍自然语言处理中一种非常重要的任务:命名实体 ...
- 流水的NLP铁打的NER:命名实体识别实践与探索
前言 最近在做命名实体识别(Named Entity Recognition, NER)的工作,也就是序列标注(Sequence Tagging),老 NLP task 了,就是从一段文本中抽取到找到 ...
- 【NLP】流水的NLP铁打的NER:命名实体识别实践与探索
作者:王岳王院长 知乎:https://www.zhihu.com/people/wang-yue-40-21 github: https://github.com/wavewangyue 编辑:yu ...
- 【论文推荐】张笑钦团队 | 综述:基于深度学习的视觉跟踪方法进展
导读 IJAC特约稿件 人眼可以比较轻松地在一段时间内持续定位特定目标,而在计算机视觉领域,这一任务便是高级计算机任务之一--"目标跟踪".但对计算机而言,在不同场景下实现目标跟踪 ...
- 如何在实际中计划和执行一个机器学习和深度学习项目
2019-11-27 20:27:28 作者:Sayak Paul 编译:ronghuaiyang 导读 做研究打比赛和真正的做一个机器学习和深度项目是不一样的,如果你有这方面的困惑的话,可以看看这篇 ...
- 中文命名实体识别(ner)迁移学习
文章目录 1.首先将中文ner项目克隆到本地 2.去ALBERT下载中文模型 3.安装gpu运行环境 4.配置虚拟环境 5.创建命令执行脚本 6.补充说明 1.首先将中文ner项目克隆到本地 项目地址 ...
最新文章
- python 读取grib \grib2
- 架设SharePoint工作组网站(上)
- sql 高级 (五)(create index(创建索引) drop)
- vue实现div多选全选功能_怎样为你的 Vue.js 单页应用提速
- keyshot卡住了还能保存吗_相机希望你知道的13件事 keyshot相机切换事件
- 发那科程序全部输出_走,去看看发那科机器人全新的自动化解决方案!
- excel根据条件列转行_Excel vba-根据不同筛选条件筛选后,拆分成新的excel工作簿...
- EAR、JAR、WAR(IT)
- matlab序列码,Matlab7 R14(sn 序列号)
- iPhone5S等A7设备 任意版本降级iOS10.3.3教程(方法二)
- IDEA安装插件及安装失败的处理方法
- ASPUpload文件上传组件的用法
- 迅雷手机版苹果版_迅雷IOS版恢复下载,又能用苹果手机下载电影愉快追剧了
- 全局mixin封装文本溢出隐藏显示省略号
- 陶朗集团任命新总裁兼CEO;开利完成对广东积微集团的收购;宁德时代获大众集团电芯测试实验室认证 | 能动...
- for of与for in的区别
- 14.1 常见数据结构、List集合(ArrayList、LinkedList)、Set集合(HashSet、LinkedHashSet)、可变参数方法
- 5906. 【NOIP2018模拟10.15】传送门 (portal)
- 花钱办活动效果不明?零售企业应该这样量化促销活动成效
- 综合布线实例详细解决方案
热门文章
- hibernate教程--检索方式(hql,sql,QBC)
- (网络编程)URL下载网络资源
- 【排序算法】——图解双轴快排(建议收藏)
- 爬取虎牙之一:(王者荣耀主播信息普通爬取)
- 关于Oracle Insert 语句的子查询 和 with check option的用法
- [转]Linux C语言头文件搜索路径
- python连接spark_python如何通过pyspark的API操作spark
- python定义函数的关键字是_python 函数定义
- 安装程序未能打开日志文件_工地开工,安全日志记录这样写才规范!
- 如何捕获window.print点击打印或取消_视频:手把手教您如何优化喷墨波形