引言

本研究重新审视了统一命名实体识别中的核心问题,即词与词之间的关系建模,并提出将所有类型的命名实体识别统一采用一种词对关系分类的方法进行建模。所提出的系统广泛地在 14 个命名实体识别数据集刷新了最好的分数。

论文题目:

基于词对关系建模的统一命名实体识别系统

Unified Named Entity Recognition as Word-Word Relation Classification

论文作者:

李京烨(武汉大学),费豪(武汉大学),刘江(武汉大学),吴胜琼(武汉大学),张梅山(哈工大深圳),滕冲(武汉大学),姬东鸿(武汉大学),李霏(武汉大学)

收录会议:

AAAI 2022

论文链接:

https://arxiv.org/pdf/2112.10070.pdf

代码链接:

https://github.com/ljynlp/W2NER

动机介绍

1.1 命名实体识别任务

命名实体识别(Named Entity Recognition,NER)是自然语言处理领域的一项非常基本的任务,在社区长久以来一直得到广泛的研究。当前的 NER 的研究重点已经从常规的扁平命名实体识别(Flat NER)逐渐转向了重叠命名实体识别(Nested/Overlapped NER)与非连续命名实体识别(Discontinuous NER)。这三类 NER 分别为:

  • Flat NER:抽取连续的实体片段(或者包含对应的实体语义类型);

  • Nested/Overlapped NER:抽取的两个或多个实体片段之间有一部分的文字重叠;

  • Discontinuous NER:所抽取的多个实体间存在多个片段,且片段之间不相连。

▲ 图1:重叠与非连续实体例子(a),该例子可转化成词对关系抽取(b)

以图 1 为例,“aching in legs”是一个扁平实体,“aching in shoulders”是一个非连续实体,两者在“aching in”上重叠。以上三种 NER 类型可概括为统一命名实体识别(Unified Named Entity Recognition,UNER)

1.2 命名实体识别方法

截止当前,命名实体识别领域的主流方法大致可分类为四类:

  • 基于序列标注的方法;

  • 基于超图的方法;

  • 基于序列到序列的方法;

  • 基于片段的方法。

其中,基于序列标注的方法是 Flat NER 的基准模型;而基于超图的方法由于其模型结构相对复杂从而使其获得的关注相对较少。而基于序列到序列方法和基于片段的方法获得了当前最好的效果,并且也是当前 NER 社区最为流行的方法,这两种方法的基本技术思路如图 2 所示。

▲ 图2:序列到序列的方法与基于片段的方法

当前 NER 社区尝试采用一种模型框架同时将三种不同类型的 NER 同时建模,即端到端抽取出所有的类型的实体。以上四种 NER 方法均可以被设计为支持统一命名实体识别的模型。本研究亦关注于构建一种高效的 UNER 系统。

1.3 本文的方法

在绝大部分现有的 NER 工作中,普遍认为NER的核心要点在于如何准确识别实体的边界;然而我们在针对三种实体类型的共性进行深入挖掘后,认为词语之间在语义上的连接特征才是 UNER 最为关键的问题。例如图 1(a)中,识别扁平实体“aching in legs”相对而言是较为简单,因为这个实体所包含的词是天然相邻的。而要识别出非连续实体“aching in shoulders”,则一个成功的 UNER 模型需要准确高效地片为片段“aching in”和片段“shoulders”之间在语义上的邻接关系进行建模。

根据上述观察,本文将 UNER 任务转化成一种词对的关系分类任务,提出了一种新的 UNER 架构(NER as Word-Word Relation Classification),名为 W²NER。具体地,该框架的目标是将 UNER 转变为识别出实体词中所蕴含的两种类型的关系,即:

  • 邻接关系(Next-Neighboring-Word,NNW);

  • 头尾关系(Tail-Head-Word-*,THW-*);

如图 1(b)所示。其中 NNW 表示两个词在某个实体中相邻(如“aching”->“in”),而 THW-* 则表示两个词是某个实体的头部和尾部,且该实体类型为“*”(如“leg”->“aching”,Symptom)。具体的词对关系分类示例如图 3 所示。

▲ 图3:关系分类示例

模型框架

图 4 给出了 W²NER 整体的框架结构。其整体可分为三层:输入编码层,卷积特征学习层以及最后的解码层。其中解码层是本论文的核心。

▲ 图4:模型整体结构

2.1 编码层

给定一个输入句子,将每一个词转换成多个 word piece,并将他们输入预训练的 BERT 模块中。进过 BERT 计算后,使用最大池化操作将这些 word piece 表示重新聚合成词表示。为了进一步增强模型的上下文建模能力,这里再使用了一个 BiLSTM 得到最终的词表示序列。

2.2 卷积层

由于该框架的目标是预测词对中的关系,因此生成高质量的词对表示矩阵尤为重要,这里使用条件层规范化(Conditional Layer Normalization, CLN)对词对表示进行计算。受到 BERT 输入层的启发,对于卷积模块的输入,使用词对表示、位置嵌入和区域嵌入进行拼接。其中位置嵌入表示每个词对中蕴含的相对位置信息,而区域嵌入用于分隔矩阵中上下三角的区域信息。然后,将这三种类型的张量拼接,再使用一个全连接网络对特征进行混合并降低维度,在送入多个扩张卷积中进行运算,在将不同的卷积输出结果拼接起来。

2.3 解码层

在解码预测层,在使用 FFN 对卷积层输出特征进行关系预测的同时,将编码层输出特征输入 Biaffine 也进行词对关系预测,这一步可以看做是一种特殊的残差机制,将编码层的特征也利用起来。因此最后的输出为 FFN 和 Biaffine 输出的加和。

在解码阶段,模型需要处理不同的词对关系。模型的预测结果是词之间的关系,这些词和关系可以构成一个有向图,其中词是节点,关系是边。模型的解码目标则是要寻找从一个词到另一个词的由邻接关系连接起来的路径,每条路径其实代表着一个对应的实体。而头尾关系则可以用于判断实体的类型和边界,除此之外还具有消歧的作用。图 4 从易到难展示了 4 个解码类型的例子。

▲ 图5:四种不同类型样本的解码示例

实验结果

本文在 14 个 NER 常用数据集上(包括英文和中文)进行了实验,分别是:

  • 在扁平实体识别中,使用的英文数据集为 CoNLL 2003 和 OntoNotes 5.0,中文数据集为 OntoNotes 4.0、MSRA、Weibo 和 Resume;

  • 在重叠实体识别中,使用 ACE 2004 和 ACE 2005 的中英文数据,和生物领域的英文数据集 Genia;

  • 在非连续命名实体识别中,使用 CADEC、ShARe13、ShARe14。

表 1-5 分别展示了上述任务和数据集上与基线模型对比的结果。实验结果表明,我们提出的基于词对关系抽取的方法,通过对邻接关系和头尾关系的识别,可以同时解决扁平实体、重叠实体和非连续实体的三种子任务,并在 14 个数据集上的效果都优于之前的工作。

▲ 表1:英文扁平命名实体识别

▲ 表2:中文扁平命名实体识别

▲ 表3:英文重叠命名实体识别

▲ 表4:中文重叠命名实体识别

▲ 表5:英文非连续命名实体识别

▲ 图6:重叠实体与非连续实体识别效果对比

通过进一步的消融实验,我们探索了不同参数和部件对整体框架的影响。此外我们模型在相对较小的参数情况下,其训练和推理速度超过了多个非连续实体识别模型。

▲ 表6:消融实验

▲ 图7:模型参数与效率对比

总结

本文提出了一个统一命名实体识别框架,通过对词与词之间的关系进行分类的方式同时解决三种命名实体识别子任务。通过对预先定义好的词对中的邻接关系和头尾关系分类,模型能够实现对复杂实体的解码。所提出的框架在 14 个中英文命名实体识别基准数据集上进行了实验验证,其刷新了当前最先进的基线模型,取得了目前最好的统一命名实体识别分数。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

AAAI 2022 | 基于词对关系建模的统一NER,刷爆14个中英NER数据集相关推荐

  1. AAAI 2021 | 基于动态混合关系网络的对话式语义解析方法

    作者|惠彬原,耿瑞莹,黎槟华,李永彬,孙健 单位|阿里巴巴达摩院Conversational AI团队 引言 机器可以自己写 SQL 语句吗?当然可以~只需要用自然语言描述你的想法即可,甚至还能进行多 ...

  2. ​AAAI 2022 | 基于强化学习的视频弹幕攻击

    ©PaperWeekly 原创 · 作者 | 陈凯 单位 | 复旦大学以人为本人工智能研究中心 研究方向 | 对抗攻防 本文中,来自复旦大学以人为本人工智能研究中心的研究者提出了一种新型的对抗弹幕攻击 ...

  3. 直播预告 | AAAI 2022论文解读:基于对比学习的预训练语言模型剪枝压缩

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  4. ACL 2021 | 基于词依存信息类型映射记忆神经网络的关系抽取

    ©作者 | 陈桂敏 来源 | QTrade AI研究中心 QTrade AI 研究中心是一支将近 30 人的团队,主要研究方向包括:预训练模型.信息抽取.对话机器人.内容推荐等.本文介绍的是一篇信息抽 ...

  5. 直播预告 | AAAI 2022论文解读:基于锚框排序的目标检测知识蒸馏

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  6. 直播预告 | AAAI 2022论文解读:基于能量的主动域自适应学习方法

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  7. 直播预告 | AAAI 2022论文解读:基于生成模型的语音/歌声合成与歌声美化

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  8. AAAI 2022 | 北航提出基于特征纯化的视线估计算法,让机器更好地“看见”

    视线估计算法基于用户的面部图片计算其视线方向.然而,面部图片中除包含有效的人眼区域信息外,仍包含众多的视线无关特征,如个人信息.光照信息. 这些视线无关特征损害了视线估计的泛化性能,当使用环境更改时, ...

  9. AAAI 2022 | 北大 阿里达摩院:基于对比学习的预训练语言模型剪枝压缩

    近年来,预训练语言模型迅速发展,模型参数量也不断增加.为了提高模型效率,各种各样的模型压缩方法被提出,其中就包括模型剪枝. 然而,现有的模型剪枝方法大多只聚焦于保留任务相关知识,而忽略了任务无关的通用 ...

最新文章

  1. Design Pattern - State(C#)
  2. POJ - 2115 C Looooops(扩展欧几里得)
  3. 校友会2019中国大学计算机,校友会2019中国计算机类一流专业排名,清华大学排名第一...
  4. 集合WeakHashMap
  5. 生物科技PSD分层海报模板|细胞光效微观,满满渗透感
  6. 读取jar包中的资源文件
  7. c++\MFC测试代码的运行时间
  8. HTTP协议格式和header、交互过程
  9. python毕业设计题目推荐汽车销售系统
  10. QQ在线等级算法实现
  11. VSCode Remote SSH 过程试图写入的管道不存在
  12. NB-IoT从原理到实践 学习笔记 part1-8
  13. 10个 Istio 流量管理 最常用的例子,你知道几个?
  14. 为什么选php语言做网站,php做网站教程:PHP语言怎么做网站
  15. 用Java写PTA 7-8 设计一个Shape及其子类Oval
  16. Ventoy 制作U盘启动盘 使用教程
  17. python时间模块
  18. [ 题解 ] A. The Bucket List (待更名)
  19. 【转】如何恶搞朋友的电脑?超简单的vbs代码
  20. 静默活体检测的python实现

热门文章

  1. 领动机器人教育_【领动知识科普】各阶段孩子该如何选择编程?乐高、机器人、编程间又有什么关系?...
  2. python入门需要什么基础知识_Python 基础之:入门必备知识
  3. python写web自动化_Web接口开发与自动化测试——基于Python语言
  4. 箱线图的四分位怎么计算_Minitab图形 | 箱线图—3解释结果
  5. json解析数组 nlohmann_JSON 数组的遍历解析
  6. python计算某年某月多少天_Python编程实现输入某年某月某日计算出这一天是该年第几天的方法...
  7. 【可持久化线段树?!】rope史上最全详解
  8. EL表达式从数组 Map List集合取值
  9. SQL查询重复记录方法大全 转
  10. Linux学习之服务器搭建——基础网络配置