Enhancing Entity Boundary Detection for Better Chinese Named Entity Recognition

  • 摘要
  • 介绍
  • 相关工作
  • 模型
    • TokenEmbeddingToken EmbeddingTokenEmbedding
    • 基于Star−TransformerStar-TransformerStarTransformer上下文嵌入层
    • Multi-Head Attention
    • Star−TransformerStar-TransformerStarTransformer编码器
    • HighwayNetworksHighway NetworksHighwayNetworks
    • 基于GATGATGAT的依赖嵌入层
    • 基于GRUGRUGRU的头部和尾部表示层
    • 模型学习
  • 实验
    • 数据集
    • 结果和分析
  • 结论

论文


摘要

  这篇文章研究了中文命名实体识别中的边界检测增强方法,探索从两个方面来增强实体边界信息:一是增加一个图注意力网络层来捕捉句子中词之间的依赖关系;二是将实体首尾词汇的预测看作是两个独立的二分类问题,作为辅助任务加入训练。
  实验证明,文章所提出的边界增强模型对于实体边界和实体类型的识别有提升,并且在书面与非书面文本上都有效果,在OntoNotes4OntoNotes4OntoNotes4OntoNotes5OntoNotes5OntoNotes5等数据集上达到了SOTASOTASOTA效果。

介绍

  在给定一个句子的情况下,NER任务的目标是识别具有预先定义的特殊含义的名词短语。由于其在关系抽取、共指消解、知识图谱等下游任务中的重要性,长期以来一直受到人们的广泛关注。

  与英语相比,由于缺乏明确的词界和时态信息,汉语名词短语更具挑战性。事实上,目前SOTAsSOTAsSOTAs中文版的表现远远不及英文版,F1−measureF1-measureF1measure的差距约为10%。在本文中,我们提出了一种边界增强的方法,以提高中文NER的质量。

  首先,利用Star−TransformerStar-TransformerStarTransformer构建了一个轻量级的基线系统。得益于Star-Transformer独特的星形拓扑结构,Star-Transformer在表示长距离序列方面更具优势,因此,我们的基线取得了与STOAsSTOAsSTOAs相当的性能。针对局部序列信息表示的不足,尝试对局部边界信息进行增强。特别地,我们的方法从两个角度增强了边界信息。一方面,我们增加了一个**GATGATGAT层来捕捉短语的内部依赖关系**。通过这种方式,可以隐式区分边界,同时增强短语中的语义信息。另一方面,我们增加了一个辅助任务来预测实体的头部和尾部。这样,在多任务学习框架下,我们可以明确地学习边界信息,从而帮助NER完成任务。实验证明了该方法的有效性。值得注意的是,我们的方法在OntoNotesOntoNotesOntoNotes和微博语料库上都获得了最新的SOTASOTASOTA结果。这意味着我们的方法可以很好地处理书面和非书面文本。

相关工作

  众所周知,大多数研究将NERNERNER任务归结为一个传统的序列标注问题,并提出了许多扩展Bi−LSTM+CRFBi-LSTM+CRFBiLSTM+CRF结构的模型。尽管基于注意力的模型,即TransformerTransformerTransformer,在各个领域已经逐渐超越了传统的RNNRNNRNN模型。已验证完全连接的TransformerTransformerTransformer机制在NERNERNER上无法正常工作。直到最近,一些研究表明,Star−TransformerStar-TransformerStarTransformer由于其轻量级的拓扑结构,可以很好地工作在NERNERNER上。此外,为了更好地捕捉局部语义信息,词汇信息和依存信息已被广泛应用于这一任务中。
  本文以Star−TransformerStar-TransformerStarTransformer为基线,主要致力于增强边界信息,以提高中文NERNERNER的性能。

模型

  本文还将NERNERNER视为序列标记任务,使用经典的CRFCRFCRF进行解码。Figure1Figure1Figure1显示了完整的模型。发现,该模型的编码器由三个部分组成,即基于GRUGRUGRU的头尾表示层、基于Star−TransformerStar-TransformerStarTransformer的上下文嵌入层和基于GATGATGAT的依赖嵌入层。

TokenEmbeddingToken EmbeddingTokenEmbedding

  考虑到缺乏明确的词边界,我们将词级表示与字符相结合,避免了分词带来的错误传播。对于给定的句子,我们通过查找预先训练的单词嵌入来表示每个单词和字符。包含在单词中的字符嵌入序列将被馈送到双向GRUGRUGRU层。双向GRUGRUGRU的隐藏状态可以表示为:

  其中xitx_{i}^{t}xit是token表示,h⃗it\vec{h}_{i}^{t}h

ith⃗it\vec{h}_{i}^{t}h

it
表示GRU层的第ttt个向前和向后隐藏状态。
  最终的tokentokentoken表示形式如下所示:

  其中[;]表示连接,posipos_iposi表示wordiword_iwordi的词性标注。

基于Star−TransformerStar-TransformerStarTransformer上下文嵌入层

  Start−TransformerStart-TransformerStartTransformer放弃了冗余连接,并具有近似建模远程依赖关系的能力。对于NER任务,实体是稀疏的,不需要一直关注句子中的所有节点。利用这种结构化模型对句子中的单词进行编码,其性能与传统的RNN模型相当,但具有捕获长范围依存关系的能力。

Multi-Head Attention

  TransformerTransformerTransformer使用hhh个注意力头来分别在输入序列上实现Self−AttentionSelf-AttentionSelfAttention。每个注意力头部的结果将被整合在一起,称为多头注意力。
  在给定向量序列XXX的情况下,我们使用查询向量QQQ来关注相关信息的软选择:

  其中,WKW^KWKWVW^VWV是可学习的参数。多头注意力可以定义为如下:

  其中,⊕表示串联,WoW^oWo,WiQW_{i}^{Q}WiQ,WiKW_{i}^{K}WiK,WiVW_{i}^{V}WiV,是可学习的参数。

Star−TransformerStar-TransformerStarTransformer编码器

  Start−TransformerStart-TransformerStartTransformer的拓扑结构由一个中继节点和两个卫星节点组成。第iii个卫星节点的状态代表文本序列中的第iiitokentokentoken的特征。中继节点充当从所有卫星节点收集信息和向所有卫星节点分散信息的虚拟集线器。
  Start−TransformerStart-TransformerStartTransformer提出了一种时间步长循环更新方法,每个卫星节点由输入向量初始化,中继节点初始化为所有token的平均值。每个卫星节点的状态根据其相邻节点进行更新,包括上一轮中的上一个节点hi−1t−1h_{i-1}^{t-1}hi1t1、上一轮中的当前节点hit−1h_{i}^{t-1}hit1、上一轮中的下一个节点hi+1t−1h_{i+1}^{t-1}hi+1t1、当前节点eie^iei和上一轮中的中继节点st−1s^{t-1}st1,更新过程如下式所示:

  其中,CitC_{i}^{t}Cit表示第iii个上下文信息。
  中继节点的更新取决于所有卫星节点的信息和上一轮的状态:

HighwayNetworksHighway NetworksHighwayNetworks

  HighwayNetworksHighway NetworksHighwayNetworks(高速公路网)可以在路网加深时缓解堵塞的坡度回流。这种门控机制对TransformerTransformerTransformer具有至关重要的意义。我们使用公路网来降低Start−TransformerStart-TransformerStartTransformer的深度和复杂性。
  HighwayNetworksHighway NetworksHighwayNetworks在计算了多头注意力后,加入了一个以公路网为主的新分支,表明卫星节点的自更新和动态调整。

  其中,w1w_1w1,w2w_2w2,b1b_1b1,b2b_2b2,是可学习的参数,σσσ是激活函数。
  最后,更新后的卫星节点表示为:

  高速公路网既增强了卫星节点的固有特性,又避免了梯度阻塞。

基于GATGATGAT的依赖嵌入层

  在这项工作中,提出利用词与词之间的依存关系来构建图神经网络。依存关系是方向性的,当前词只与具有共享边的词相关。这种定向链接进一步获得了实体的内部结构信息,丰富了顺序表示。

  图注意网络(GAT)利用掩蔽的Self−AttentionSelf-AttentionSelfAttention层为相邻节点赋予不同的重要性。注意系数eije_{ij}eijαijα_{ij}αij表示节点jjj对节点iii的重要性。

  具有KKK个独立注意头的GATGATGAT操作可以表示为:

  其中,⊕表示串联,WWWa⃗\vec{a}a

是可学习的参数,NiN_iNi表示节点iii的邻域,σ表示激活函数。
  该算法除了对GAT层的关联节点有较强的关注度外,还能很好地弥补Star−TransformerStar-TransformerStarTransformer在捕捉短语内部依存关系方面的不足。

基于GRUGRUGRU的头部和尾部表示层

  虽然GATGATGAT在捕捉实体内部依赖方面是有效的,但是实体的边界需要加强。然后将实体边界检测看作二值分类任务,与NER4同时训练,给NER4同时训练,给NER4NERKaTeX parse error: Expected 'EOF', got '&' at position 12: 清晰的实体边界信息。 &̲emsp; 在训练阶…GRU层对实体进行头部和尾部预测,并将其隐含特征与层对实体进行头部和尾部预测,并将其隐含特征与GATKaTeX parse error: Expected 'EOF', got '#' at position 86: …2acc6a8ee1b.png#̲pic_center) &em…W_1,,,W_2,,,W_3是可学习的参数,是可学习的参数,H$是CRF的最终输入。

模型学习

  实体边界不仅是本文要处理的任务,而且是NER提供的完美的自然辅助,NER从外到内转换,反之亦然。
  多任务损失函数由边界检测的类别交叉熵损失和实体类别标签预测的类别交叉熵损失组成:

实验

数据集

  标签是用BIESO标记的,使用Precision§、Recall®和F1 Score(F1)作为评估标准。

  • OntoNotes V4.0:是一个中文数据集,由来自新闻领域的文本组成。
  • OntoNotes V5.0:也是来自新闻领域的中文数据集,但规模更大,实体类型更多。
  • Weibo NER:包含摘自社交媒体新浪微博的带标注的NER消息。

  另外,本文使用的句法依存分析工具是DDParser。

结果和分析

  在OntoNotes和微博语料库上进行了实验,并将结果与现有的模型进行了比较,如Table 1所示:

  首先建立一个Start−TransformerStart-TransformerStartTransformer基准,这在较小的社交媒体微博语料库上比OntoNotes更有效。Star−TransformerStar-TransformerStarTransformer可以优于微博上现有的所有模型,命名实体(NE)和名义实体(NM)至少有6.29%(F1)和8.85%(F1)。

  考虑到OntoNotes的结构特点,其中实体具有相似的组成,使用遗传算法T来模拟实体内部的特征。OntoNotes的精度分别提高了3.93%和1.62%。在此基础上,将边界预测作为多任务利用标签分类进行训练,为神经网络提供局部序列信息。表2显示了模型中不同实体识别错误的数量,包括类型错误(TE)、不可识别错误(UE)和边界错误(BE),添加了实体头尾预测,使OntoNotesV4.0上的边界错误数量减少了37个。毫无疑问,边界增强模型对于实体边界和实体类型的识别都是非常有益的。

  对于微博,NE和NM表现出不同的性能。更标准的NE具有与OntoNotes相似的性能,而NM受GAT的影响较小,这是因为它的长度较短且非结构化。
  结合以上三层各自的优势,可以将一个统一的轻量级模型应用于中文NER,在OntoNotes和微博语料库上都得到了最新的结果。

结论

在本文中,主要关注边界信息对中文NER的影响。本文首先提出了一种基于Start−TransformerStart-TransformerStartTransformer的NER系统。然后结合显式头尾边界信息和基于依赖遗传T的隐式边界信息对中文神经网络进行改进。在OntoNotes和微博语料库上的实验表明了该方法的有效性。

ACL2021_Enhancing Entity Boundary Detection for Better Chinese Named Entity Recognition相关推荐

  1. PapeDeading:Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition

    Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition 文章目录 摘要 结论 ...

  2. 论文阅读笔记-FGN: Fusion Glyph Network for Chinese Named Entity Recognition

    论文地址:paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdf github地址:github:https://github.com ...

  3. FGN: Fusion Glyph Network for Chinese Named Entity Recognition

    结合中文字形处理NLP任务的并不多推荐一篇:Glyce2.0,中文字形增强BERT表征能力 paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.052 ...

  4. 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition

    本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文. 神经网络的解释: The forward pass com- putes a weighted sum of th ...

  5. 《A Boundary-aware Neural Model for Nested Named Entity Recognition》

    论文链接:A Boundary-aware Neural Model for Nested Named Entity Recognition 模型代码:Github Abstract   在自然语言处 ...

  6. Stanford Named Entity Recognizer (NER) 斯坦福命名实体识别(NER)

    以下翻译内容来自:https://nlp.stanford.edu/software/CRF-NER.html About 关于 Stanford NER is a Java implementati ...

  7. Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings

    Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings 一.研究对象:中文社交媒体信息的命名 ...

  8. NER项目--github--A Unified MRC Framework for Named Entity Recognition

    A Unified MRC Framework for Named Entity Recognition项目代码 简述 项目结构 models model_config.py classifier.p ...

  9. 论文阅读笔记(三)【ACL 2021】Locate and Label: A Two-stage Identifier for Nested Named Entity

    论文标题: Locate and Label: A Two-stage Identifier for Nested Named Entity Recognition 论文链接: https://arx ...

  10. [论文阅读笔记05]Deep Active Learning for Named Entity Recognition

    一,题目 Deep Active Learning for Named Entity Recognition[NER任务的深度主动学习] 来源:ICLR 2018 原文:DEEP ACTIVE LEA ...

最新文章

  1. 遗留应用现代化场景:如何正确使用RESTful API
  2. webpack 实践笔记(一)--- 入门
  3. 将 Net 项目升级 Core项目经验:(一)迁移Net项目为Net Core\Standard项目
  4. 常用邮箱申请渠道有哪些?此文给你讲清楚了
  5. 中国工科计算机专业,中国最受欢迎的4个工科专业,第1名有些意外,第3名副其实...
  6. 广元南山隧道南河互通立交图_广元城区一隧道工程竣工时间已定,今后出行更加方便了!...
  7. cuda的shared momery
  8. git clone 报错 Clone failed: Authentication failed for
  9. 阻止xap文件在浏览器中缓存
  10. linux ssh非交互脚本,sshpass-Linux命令之非交互SSH
  11. github private链接访问_如何判定一段内存地址是不可访问的?
  12. 六自由度机械臂研究(1)- 简介, 自由度与改装
  13. 三维激光扫描在堆体体积测算中的应用
  14. android 生成bks_生成android的bks证书
  15. 用js写一个倒计时表
  16. MAC版Pycharm使用技巧
  17. 城乡规划编制资质很多地区已经开通新办了,那你知道怎么办吗?
  18. 主引导扇区(MBR),分区表(DPT)及活动分区(DBR)
  19. c++ 图的连通分量是什么_7.1 图的定义与基本术语
  20. selenium 模拟人工登录 高德开发者平台(python)

热门文章

  1. Android子控件超出父控件的范围被覆盖问题
  2. linux io page fault,Linux的page fault
  3. 分区表中GLO字段对信息收集的影响
  4. 怎么实现类似星星闪烁的效果(box-shadow)
  5. CentOS7.5 远程桌面设置
  6. 打印机能两个计算机共用吗,打印机共享线_两台电脑用一台打印机_分线器可以接打印机吗...
  7. diskgenius克隆硬盘无法启动_用diskgenius成功拷出故障硬盘数据
  8. C语言实现钢琴块小游戏(低仿拉胯版)
  9. [源码和文档分享]基于HTML5和JS实现的在线电子钢琴网页版
  10. python符号或非并列,Python运算符