Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition

文章目录

  • 摘要
  • 结论
  • 模型图
  • 1 介绍
    • 1.1 NER两大框架
    • 1.2 已有工作不足之处
    • 1.3 创新点
  • 2 方法
    • 2.1 嵌入和特定任务编码器
    • 2.2 规律感知模块
    • 2.3 规律性识别模块
    • 2.4 正交性空间限制
    • 2.5 训练和推理
  • 3 实验
    • ①有效性分析(三个基准数据集)
    • ②嵌套NER分析(实际的医学数据集)
    • ③消融分析
    • ④规律感知模块内部变体分析
    • ⑤创新点具体分析
      • 正则性:一个潜在的自适应词典
      • 性能与实体类型
      • 性能与实体长度的关系
    • ⑥案例研究

论文地址: https://aclanthology.org/2022.findings-naacl.143/
来源:2022年4月7日,自然语言处理领域国际顶级学术会议NAACL 2022(The North American Chapter of the Association for Computational Linguistics)公布论文入选名单,由华为云语音语义创新Lab多名研究者撰写的信息抽取论文《Delving Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition》被NAACL 2022 Findings接收,这代表着中文命名实体识别的最优结果 (SOTA) 被进一步刷新,更准确有效地实体识别将推动下游自然语言处理任务的进一步发展。

摘要

Abstract: Recent years have witnessed the improving performance of Chinese Named Entity Recognition (NER) from proposing new frameworks or incorporating word lexicons. However, the inner composition of entity mentions in character-level Chinese NER has been rarely studied. Actually, most mentions of regular types have strong name regularity. For ex-ample, entities end with indicator words such as “公司 (company) ” or “银行 (bank)” usually belong to organization. In this paper, we propose a simple but effective method for investigating the regularity of entity spans in Chinese NER, dubbed as Regularity-Inspired recognition Network (RICON). Specifically, the proposed model consists of two branches: a regularity-aware module and a regularity-agnostic module. The regularity-aware mod-ule captures the internal regularity of each span for better entity type prediction, while the regularity-agnostic module is employed to lo-cate the boundary of entities and relieve the excessive attention to span regularity. An orthogonality space is further constructed to encourage two modules to extract different aspects of regularity features. To verify the effectiveness of our method, we conduct extensive experiments on three benchmark datasets and a practical medical dataset. The experimental results show that our RICON significantly out-performs previous state-of-the-art methods, including various lexicon-based methods.

摘要:近年来,由于提出了新的框架或加入了词库,中文命名实体识别(NER)的性能得到了提高。然而,在字符级的中文NER中,实体提及的内部构成却很少被研究。实际上,大多数常规类型的提及都有很强的名称规律性。例如,以 "公司 "或 "银行 "这样的指示词结尾的实体通常属于组织。在本文中,提出了一种简单而有效的方法,用于调查中文NER中实体跨度的规律性,被称为规律性启发的识别网络(RICON)。具体来说,该模型由两个分支组成:规则性感知模块和规则性诊断模块。规则性感知模块捕捉每个跨度的内部规则性,以便更好地预测实体类型,而规则性诊断模块则被用来确定实体的边界,缓解对跨度规则性的过度关注。进一步构建了一个正交空间,鼓励两个模块提取不同方面的规则性特征。为了验证方法的有效性,在三个基准数据集和一个实用的医疗数据集上进行了广泛的实验。实验结果表明,本文的RICON明显优于以前的最先进的方法,包括各种基于词库的方法。

结论

Conclusion:In this paper, we proposed a simple but effective method to explore the regularity information for Chinese NER, dubbed as Regularity-Inspired recognition Network (RICON). It contains a regularity-aware module to capture the internal regularity feature of each span, and a regularity-agnostic module to reinforce the entity boundary detection while avoid imposing excessive attention on regularity. The features of two modules are encouraged to be dissimilar by an orthogonality space restriction. Evaluation shows that RICON achieves the state-of-the-art performance on four datasets.

在本文中,提出了一种简单而有效的方法来探索中文NER的规则性信息,被称为规则性启发的重构网络(RICON)。它包含一个规律性感知模块,用于捕捉每个跨度的内部规律性特征,以及一个规律性诊断模块,用于加强实体边界检测,同时避免对规律性的过度关注。两个模块的特征通过正交空间的限制被鼓励为不相似的。评估表明,RICON在四个数据集上达到了最先进的性能。

模型图

1 介绍

1.1 NER两大框架

  1. 将NER转换为序列标记任务,每个字符都被分配给一个特殊标签(B-LOC、I-LOC)
  2. 基于跨度的方法(span-based),根据跨度级表示(span-level representations)对候选跨度(candidate spans)进行分类

1.2 已有工作不足之处

没有考虑中文实体的复杂构成
方法:利用外部词库帮助连接相关的字符,并促进本地构成(Lattice,Simple_lexicon,FLAT)
缺点:建立词汇库耗时且质量可能无法满足
上图观察:

  1. 规律性:“尼日尔河”遵循“XX+河”的特定组合模式,这种模式以指示符“河”结尾,大多属于位置类型;而模糊的“流”字可以与正确的“经”字构成“流经,字符“流”可以构成左右两边的单词,如“河流”和“流经”,导致模糊的字符。所以,规律性信息是进行实体类型识别和字符组成识别的重要线索。
    从形式上看,把规律性称为包含在实体类型中的特定内部模式
  2. “中国队”古河“XX+队”的规律,但正确的实体边界应该是“中国”和“队员”。所以过于关注规律性会不利于实体的边界检测和干扰字符构造。
    上下文在确定字符边界方面也起着关键作用。

1.3 创新点

在本文中介绍了一种简单而有效的方法,以探索中文NER的entity spans的规则性信息,被称为Regularity Inspired reCOgnition Network(RICON)【规则性启发的reCOgnition网络(RICON)】。所提出的模型由两个分支组成,分别是规律性感知模块和规律性诊断模块,每个模块都有特定任务的编码器和优化对象。具体来说,规则性感知模块旨在分析每个跨度的内部规则性,并将重要的规则性信息整合到相应的跨度级别的表示中,从而实现精确的实体类型预测。同时,规律性诊断模块的设计是为了捕捉上下文中的信息,避免过度关注跨度内的规律性。此外,还采用了正交性空间限制,鼓励两个分支在规则性方面提取不同的特征。为了验证我们方法的有效性,我们在三个大规模的基准数据集(OntoNotes V4.0, OntoNotes V5.0和MSRA)上进行了广泛的实验。结果表明,与最先进的模型相比,RICON取得了相当大的改进,甚至超过了现有的基于词库的模型。此外,我们在一个实用的医学数据集(CBLUE)上进行了实验,以进一步证明RICON的能力。

①第一个明确探讨CNER中entity metions的规律性信息,称为Regularity Inspired reCOgnition
Network(RICON)。 ②有效利用了规律性信息,同时避免过度关注跨度内的规律性。 ③在个大规模的基准数据集(OntoNotes
V4.0, OntoNotes V5.0和MSRA)和一个实际的医学数据集(CBLUE)上广泛实验证明方法的有效性。

2 方法


整体框架如上图:主要由两个分支组成:规律性感知模块和规律性诊断模块。
除此之外还有:正交约束空间;损失函数设计

2.1 嵌入和特定任务编码器

首先,输入序列的每个字符被嵌入到一个密集的向量中。然后,这些字符向量被分别送入两个特定任务的双向LSTM(BiLSTM)层,分别为每个模块提取相应的隐藏状态。形式上,给定一个有l个字符的句子s={c1, c2, …, cl}。我们使用标准的BERT(Devlin等人,2019)来获得目标标记的上下文相关嵌入。

然后,字符嵌入序列将被送入两个独立的BiLSTM层,用于规律性感知模块和规律性诊断模块。BiLSTM的隐藏状态表示如下:

2.2 规律感知模块


如上图:
(a)通过连接相应的头尾特征表示每个实体的跨度(span),使用线性分类器来预测该跨度的类型。此时,跨度特征为粗粒度特征。
(b) 提出一种双仿射解码器来增强经过两个多层感知器multi-layer perceptrons(MLPs)后加强头尾表示间的相互作用,预测跨度类型
缺点:均忽略了内在规律性
(c)本文提出,设计规律性感知模块捕捉每个跨度i,j的内部规律性特征。跨度表示由跨度的头和尾字符获得,而规律性表示源于每个字符的跨度。

为了预测一个实体的类型,将每个跨度的规律性特征整合到跨度表示中。
①通过双线注意力记住,利用头部和尾部特征的交互作用捕捉跨度表示。

注:不使用(b)的MLP方式,头尾表示分别通过MLP产生不同的表示,导致空间不一致性,实验验证这种空间的一致性会降低识别性能。
②设计门控网络(LSTM)整合跨度和规则性表示。

③采用标准的线性分类器,用softmax函数预测每个跨度的实体类型。

正则行的损失函数意识到的模块被定义为交叉熵:

2.3 规律性识别模块

通过考虑规律性,上述规律性感知模块使模型在预测实体类型方面更加严格,从而提高了实体预测的精度。然而,过于关注规律性可能会导致不准确的词的边界。为了解决这个问题,建议抹去关键实体的具体形式,并通过规律性感知模块缓解对结构模式的过度学习。在这种情况下,确定边界的头部和尾部特征变得更加重要,因此首先在BiLSTM的隐藏状态上应用两个多层感知器(MLPs)来获得头部和尾部的独立表示。然后,利用双发解码器来获得跨度si,j的实体概率,具体如下。

最后,我们采用二元交叉熵损失来训练这项任务。

2.4 正交性空间限制

由于规则性(规律性)感知模块旨在捕获规则性信息,而规则性诊断模块不关注具体的规则性,期望为这两个模块学习不同的特征。为此,在两个BiLSTM层的顶部构建了一个正交性空间,鼓励对输入嵌入的不同方面进行编码。损失的计算方法如下。

2.5 训练和推理

在训练过程中,RICON可以通过联合优化上述三个子任务来进行训练,因此定义总损失如下。

3 实验

①有效性分析(三个基准数据集)

②嵌套NER分析(实际的医学数据集)

③消融分析

④规律感知模块内部变体分析

(1)几种替代的方法来提取规律性信息

  1. 本文:线性注意力机制
  2. 平均池化
  3. 最大池化
  4. 多头自注意力
    (2)门控机制中特征融合方式
    1 . 线性加和
    2 . 拼接
    (3)规律感知模块中生成span特征时,头尾特征分别添加两个MLP

⑤创新点具体分析

正则性:一个潜在的自适应词典

基于词库的方法主要是结合外部词库来提高基于字符的NER的性能。它们的核心概念是保留所有与特定字符相匹配的词,并让后续的NER模型决定应用哪个词。在模型中,计算每个跨度的规则性,即考虑所有包含特定字符的词,然后将确定最佳的词和相应的规则性。在这个意义上,探索的规律性可以被看作是一个潜在的适应性词汇。此外,这种潜在的自适应词典比外部词典更完整,因为所有与特殊字符相匹配的跨度都被考虑在内,而基于词典的方法只匹配有限的几个词。如表1所示,以前的SOTA方法BERT+Biaffine的表现比基于词库的方法差,但基于正则的方法RICON的表现优于基于词库的方法。实际上,基于正则的方法可以进一步与基于词典的方法结合起来。

性能与实体类型

研究了规律性对每种实体类型的影响。如图4所示,12种类型的实体在规则性方面取得了更好的表现。这一结果符合GPE、ORG和DATE等类型具有很强的规律性的事实。然而,对于规律性信息很少的类型,如WORK_OF_ART和PERSON,沉浸式规律性导致性能下降。注意到,MONEY类型通常包含规律性,但是没有观察到这一类的改进。这是由于训练和测试数据集之间的不一致造成的。例如,训练数据包含丰富的模式 “num-ber+dollar”,而在测试数据集中只存在数字。为了补救过度的规律性,RICON进一步利用了一个与规律性无关的模块来纠正捕获的规律性。上述观察结果也激励我们在未来为不同的实体类型设计出更精细的NER,并具有不同程度的规律性属性。本文的规则性感知模块也可以作为一个潜在的工具来评估规则性的强度。

性能与实体长度的关系


图5描述了在OntoNotes V4.0和V5.0数据集上不同长度实体的性能。从这个图中,可以观察到,当实体长度超过2时,RICON一直优于BERT-Biaffine,这说明规则性信息对预测长实体的类型是有帮助的。相反,当实体长度为2时,BERT-Biaffine的表现与RICON相当,因为除了头部和尾部的表示,没有额外的字符信息。

⑥案例研究



表7显示了OntoNotes V4.0中的两个例子。在第一个例子中,Vanilla错误地识别了实体类型,而Vanilla+reg-aware通过对 "海 "的最大权重0.83学习正则性 “XX+海”,从而得到了准确的实体类型。值得注意的是,除了第一个例子中的明确模式外,正则性可以捕捉更复杂的字符组合。更复杂的例子在附录中预先提出。在第二个例子中,"美国公司 "符合 "XX+公司 "的规则性,并被本模型识别为组织类型。在配备了规律性识别模块后,得到了预知的字符边界,并解除了对规律性的过度关注。

PapeDeading:Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition相关推荐

  1. 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition

    本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文. 神经网络的解释: The forward pass com- putes a weighted sum of th ...

  2. EMNLP20 - Simple and effective few-shot named entity recognition with structured nearest neighbor le

    文章目录 Abstract Introduction Problem Statement and Setup Model Nearest neighbor classification for few ...

  3. 【论文精读】A Survey on Deep Learning for Named Entity Recognition

    A Survey on Deep Learning for Named Entity Recognition 前言 Abstract 1. INTRODUCTION 2. BACKGROUND 2.1 ...

  4. 论文阅读:(2020版)A Survey on Deep Learning for Named Entity Recognition 命名实体识别中的深度学习方法

    A Survey on Deep Learning for Named Entity Recognition 命名实体识别中的深度学习方法 目录 A Survey on Deep Learning f ...

  5. [论文阅读笔记05]Deep Active Learning for Named Entity Recognition

    一,题目 Deep Active Learning for Named Entity Recognition[NER任务的深度主动学习] 来源:ICLR 2018 原文:DEEP ACTIVE LEA ...

  6. 论文阅读:A Survey on Deep Learning for Named Entity Recognition

    这是一篇2020年发的命名实体识别的综述性论文,从NER的语料库,定义,评估指标,到深度学习中的NER的技术都有涉及到. A Survey on Deep Learning for Named Ent ...

  7. 《Deep Exhaustive Model for Nested Named Entity Recognition》

    论文链接:Deep Exhaustive Model for Nested Named Entity Recognition Abstract   我们提出了一种简单的深层神经网络模型用于嵌套命名实体 ...

  8. Residual Attention: A Simple but Effective Method for Multi-Label Recognition论文阅读笔记

    残差注意力:一种简单有效的多标签识别方法 ICCV2021 论文链接 代码链接 摘要: 多标签图像识别是一项具有挑战性的计算机视觉任务.该领域的进展方法往往复杂.计算繁重且缺乏直观解释.为有效捕捉不同 ...

  9. 【小样本命名实体识别 few-shot NER】Simple and Effective Few-Shot Named Entity Recognition with Structured Neare

         

最新文章

  1. pymysql报错:pymysql.err.InterfaceError: (0, '')
  2. TxQueryRunner-JDBC小工具
  3. 架构与设计 之一 C 嵌入式设计模式(Design Patterns for Embedded Systems in C)的学习记录
  4. 秒懂边缘云 | 边缘云技术进阶
  5. 【poj2114】点分治(离线)
  6. 利用Python自动发送电子邮件
  7. 多线程数据下载(akshare)
  8. 吃糖果hdu2502
  9. CARNIVAL包的介绍(根据生信技能树Jimmy老师分享的R包资料整理)
  10. Android 笔记 json GSON,Android中使用Gson解析JSON数据
  11. 合与荣—— 惠普融合战略的深化与落地
  12. 如何使用荣耀手机的计算机功能,华为荣耀手机投屏电脑教程
  13. 在unity3D中添加字体
  14. LAN、MAN、WAN指的是什么网络
  15. 金蝶kis修改服务器,金蝶kis 修改服务器地址
  16. 手机数据恢复的经历和过程
  17. BeanCopier使用说明
  18. Manifest merger failed : uses-sdk:minSdkVersion 15 cannot be smaller than version 21 declared in lib
  19. Removal【套路DP】
  20. Windows10安装mysql5.7.17免安装版

热门文章

  1. stm32 mbed 入门教程(一)---前期准备
  2. 微软在文件夹里插广告,把用户恶心到了,官方:试验功能,不小心推送了!...
  3. 计算机无法识别3.0u盘启动,USB3.0接口不能识别U盘怎么办
  4. 世界坐标系(WCS)和用户坐标系UCS
  5. 如何在一夜之间获得成功:我「从无到有」的 5 年 [英文版]
  6. 电脑蓝屏,错误代码为“KERNEL STACK INPAGE ERROR”
  7. Python AI 换脸,宋小宝都能换脸刘亦菲,你的网恋对象不知道有多可怕!
  8. 云计算需要学习哪些内容 为什么要学容器技术
  9. 光速不变原理的一般性表述
  10. 鲜枣课堂-文章分类目录(2019.7.28更新)