点击上方,选择星标置顶,每天给你送干货

阅读大概需要7分钟

跟随小博主,每天进步一丢丢

论文作者:Tao Gui等

论文标题:CNN-Based Chinese NER with Lexicon Rethinking

论文会议:IJCAI2019

论文链接:https://www.ijcai.org/Proceedings/2019/0692.pdf

论文代码: https://github.com/guitaowufeng/LR-CNN

一. 介绍

Motivation

本文模型提出的动机是,尽管现有的融合了lexicon信息的RNN模型在中文NER任务中取得了一定的成功,但这类模型存在两处缺点

  • 效率限制: 基于RNN的模型由于循环结构的限制无法进行并行操作,尤其是Lattice-LSTM;

  • Lexicon冲突问题: 当句子中的某个字符可能与lexicon中的多个word有关时,基于RNN的模型难以对此做出判断。例如,图一中的"长"可能属于"市长"一词,也可能属于"长隆"一词,而对"长"所属lexicon word判断的不同,将导致对字符"长"预测的标签不同。

图1

Proposed Model

基于以上问题,本文提出一种含有「rethinking 机制的CNN网络(LR-CNN)」,从以下两个方面对motivation中发现的问题进行解决

  • 通过CNN对句子与lexicon中存在的词语进行处理

  • 通过rethinking机制解决lexicon conflict: 大多数中文NER模型都通过前向网络结构对特征进行学习,因此无法在获得完整的句子信息后对lexicon conflict进行处理。因此通过再添加一层以高层特征为输入的feedback layer, 来调整lexicon words间的权重进而解决冲突问题。

Contibutions

本文总结如下三点贡献

  • 设计了能够将lexicon信息融入到中文NER的CNN结构模型,且有效地加速了模型的训练;

  • 设计了Rethinking机制来处理了上文所说的lexicon conflict问题;

  • 本文模型取得了较好的效果,且运行速度达到目前SOTA模型的3.21倍

模型设计

LR-CNN模型主要包括「Lexicon-Based CNNs」「Refining Networks with Lexicon Rethinking」两部分

Lexicon-Based CNNs

首先将输入的句子表示为

























, 其中 







表示句中 




个字符维度为 




的embedding表示;然后,对 lexicon 中能够与句子中字符序列匹配上的词语进行表示:








= {







, ..., 













}, 其中 




代表字符下标,




代表词语长度, 例如在图1中,








=广州,








=广州市。接下来「用CNN模型对字符特征进行编码,并通过attention模块融入lexicon信息」

CNN使用维度为 






的矩阵作为卷积核,其中 




代表卷积核窗口大小;CNN使用不同大小窗口的卷积核进行特征提取,当窗口大小为2时,表示抽取bigram特征,大小为 




时,表示抽取









特征。卷积操作后得到的 









句子特征表示为 








, 将对应于 








通过attention操作融入lexicon信息,attention部分的计算过程如下:

Refining Networks with Lexicon Rethinking

由于CNN的分层结构,低层的potential words信息无法影响到高层的words,因此设计rethinking机制,处理lexicon中potential words的冲突问题。

在本文中,将CNN的顶层特征 








作为高层特征,通过向每一层CNN添加一个feedback layer来调整lexicon的权值,具体计算如下:

举例对这一过程进行说明,如果没有高层特征得到的"广州市"和"长隆",那么"市长"一词会对误导模型对字符"市"产生错误的预测。因此,需要通过高层特征("广州市")来降低"市长"一词在输出特征中权重。

在通过卷积核抽取 









特征的同时,句子中每个位置上的字符分别都得到了一个表示,因此通过attn机制将同一字符在不同卷积尺度下的特征进行融合:

最后得到的将作为CRF层进行标签预测的输入。

Predicting with CRF

以 











为输入,通过CRF层对字符标签进行预测

实验

主要介绍了数据集、比较的baseline模型以及超参设置,具体可见论文。

分析

在分析章节中,本文首先通过LR-CNN在不同数据集上取得的结果说明了LR-CNN的「实验效果」,同时通过decoding time指出了LR-CNN在「效率」上较之Lattice-LSTM的提高。

然后,作者分析了「句子长度」对模型的影响,从两方面与Lattice-LSTM进行对比:

  • LR-CNN在实验中所有句子长度的设定下都取得了优于Lattice-LSTM的效果,尤其是句子长度小于12个字符时。因此得出结论: 「LR-CNN较之Lattice-LSTM更加具有处理短句的优势」

  • 对不同句子长度下LR-CNN和Lattice-LSTM的decoding time进行统计,发现随着句子长度的增加,LR-CNN的速度降低较为稳定,而Lattice-LSTM的速度改变则比较显著。

最后,作者通过消融实验得出如下结论

消融实验 结论
去掉lexicon信息 lexicon信息对基于字符的中文NER是十分有用的
去掉rethinking机制 rethinking机制能够有效提高融合lexicon信息后模型的实验结果(因为它可以处理字符与lexicon中word的冲突问题)
同时去掉lexicon信息和rethinking机制 通过对比「仅去掉lexicon信息」「同时去掉lexicon和rethinking」的实验结果发现,rethinking机制对没有lexicon的模型也能有一定的提升作用

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

如果对你有帮助,点个再看吧

【论文解读】IJCAI2019: 面向中文NER 基于lexicon rethinking的CNN模型相关推荐

  1. AutoDL论文解读(二):基于遗传算法的典型工作

    自动化机器学习(AutoML)最近变得越来越火,是机器学习下个发展方向之一.其中的神经网络结构搜索(NAS)是其中重要的技术之一.人工设计网络需要丰富的经验和专业知识,神经网络有众多的超参数,导致其搜 ...

  2. 【Python深度学习】基于Tensorflow2.0构建CNN模型尝试分类音乐类型(二)

    前情提要 基于上文所说 基于Tensorflow2.0构建CNN模型尝试分类音乐类型(一) 我用tf2.0和Python3.7复现了一个基于CNN做音乐分类器.用余弦相似度评估距离的一个音乐推荐模型. ...

  3. 论文解读:《DeepIDC:基于异构信息和深度学习的注射用药物组合预测框架》

    论文解读:<DeepIDC: A Prediction Framework of Injectable Drug Combination Based on Heterogeneous Infor ...

  4. 论文解读:《RELATION:基于结构的药物从头设计的深度生成模型》

    论文解读:<RELATION:A Deep Generative Model for Structure-Based De Novo Drug Design> 1.文章概述 2.迁移学习相 ...

  5. 论文解读:面向时间感知链接预测的知识嵌入表示(Encoding Temporal Information for Time-Aware Link Prediction)

    论文题目:面向时间感知预测的时间信息编码 摘要: 现有的知识库大多只从不包含时间信息的三元组中学习数值化嵌入方法,而忽略了知识库中的时间信息.在这篇文章中.提出了一种利用三元组发生时间的时间感知知识库 ...

  6. 论文解读:《一种基于长短期记忆网络深度学习的药物靶相互作用预测方法》

    论文解读:<A deep learning-based method for drug-target interaction prediction based on long short-ter ...

  7. 论文解读:《DeepSuccinylSite:基于深度学习的蛋白质琥珀酰化位点预测方法》

    论文解读:<DeepSuccinylSite:a deep learning based approach for protein succinylation site prediction&g ...

  8. 论文解读《STALLION:一个基于堆叠的原核赖氨酸乙酰化位点预测的集成学习框架》

    期刊:Briefings in Bioinformatics 分区:二区 摘要 蛋白质翻译后修饰(PTM)是一种重要的调节机制,在正常和疾病状态中都发挥着关键作用.赖氨酸残基上的乙酰化是由于其在细胞代 ...

  9. 微软论文解读:用于视觉对话的多步双重注意力模型

    作者丨张琨 学校丨中国科学技术大学博士生 研究方向丨自然语言处理 论文动机 当前 Visual dialog 模型尽管已经取得了令人印象深刻的表现,但当问题涉及到图像的特定区域或者比较细节的对话片段时 ...

  10. 【AI易操作-深度学习算法代码解读】基于keras实现图像识别CNN模型-含CNN卷积神经网络模型原理

    图像识别为什么要用卷积神经网络CNN?比传统神经网络好在哪里? 核心差别点:多了卷积层+池化层,所以本文主要是梳理卷积层和池化层设计原理+CNN模型实现(基于Keras代码) 传统神经网络的劣势 我们 ...

最新文章

  1. 自动驾驶 | MINet:嵌入式平台上的实时Lidar点云数据分割算法,速度可达 20-80 FPS!...
  2. 我是LinkedIn的SRE,我把LinkedIn搞挂了
  3. 深度学习核心技术精讲100篇(四十九)-半监督学习在金融文本分类上的探索和实践
  4. [Android]你不知道的Android进程化(4)--进程通信AIDL框架
  5. js html模板生成图片不显示,网页中图片不显示问题
  6. python调用soap_如何在python zeep中调用soap api而不使用wsdl(非wsdl模式)?使用用户和密码身份验证调用位置URL...
  7. 是时候该了解下Unity3D了
  8. in front of 与in the front of区别
  9. Html5动态桌面,动态桌面软件《Wallpaper Engine》 让你的电脑桌面动起来!
  10. 数学建模之lingo使用
  11. odin学习2 button
  12. excel常用操作收集
  13. [Noi2015]小园丁和老司机
  14. 梅科尔工作室-OpenEuler培训第二讲笔记
  15. QChartView
  16. 华为无线wifi无服务器,华为wifi设置后设备无法上网该怎么解决 | tplogin.cn
  17. win7 打开防火墙端口
  18. runtime-compiler和runtime-only的区别
  19. 轻量级pythonide_轻的解释|轻的意思|汉典“轻”字的基本解释
  20. 【论文阅读笔记】老照片修复——Old Photo Restoration via Deep Latent Space Translation

热门文章

  1. ProcExp和TaskMgr的列对比
  2. Windows_cmd_命令
  3. go学习笔记-包处理
  4. Phoenix 映射 HBase + Maven
  5. python coroutine测试
  6. C++异常层次结构图
  7. absolute绝对定位的参考坐标和参考对象问题详解
  8. C编程语言中16位整型数据的取值范围介绍
  9. 转: gob编解码
  10. dom块级元素的各种宽高