©作者 | 刘兴贤

学校 | 北京邮电大学硕士生

研究方向 | 自然语言处理

论文题目:

A Unified Generative Framework for Various NER Subtasks

论文地址:

https://arxiv.org/abs/2106.01223

代码repo:

https://github.com/yhcc/BARTNER

该论文被收录于 ACL 2021 主会,作者是来自复旦大学的邱锡鹏老师组。

先插句题外话,本文的图示是我最近看过的文章里表意最明确的一篇,几乎只看图就能了解文章表达的意思。

Main Idea

图 abc 分别展示了 NER 的 flat NER(简单、扁平实体抽取)、nested NER(嵌套实体抽取)、discontinuous NER(不连续实体抽取)三种不同的子任务。

而对于这样复杂的子任务,无法使用传统的标记方法将其纳入同一个框架。因此,本文使用了指针方式,使用将标注任务转化为一个序列生成任务(本文的主要贡献也正在这里),并使用了 seq2seq 的范式来进行生成,生成过程使用了预训练模型 BART,这是一个利用从被破坏掉的文本中还原文本的任务作为预训练目标的模型。

Abstract

命名实体识别(NER)是识别代表句子中实体的跨度的任务。无论实体跨度是嵌套的还是不连续的,NER 任务都可以分为 Flat NER、嵌套 NER 和不连续 NER 子任务。这些子任务主要通过令牌级序列标记或跨度级分类来解决。然而,这些解决方案很难同时处理三种 NER 子任务。

为此,我们提出将 NER 子任务描述为实体跨序列生成任务,该任务可以通过一个统一的序列到序列(Seq2Seq)框架来解决。基于我们的统一框架,我们可以利用预先训练的 Seq2Seq 模型来解决所有三种类型的 NER 子任务,而不需要特别设计标记模式或枚举跨度的方法。

我们利用三种类型的实体表示将实体线性化为序列。我们提出的框架易于实现,并在 8 个英语 NER 数据集上实现了 SOTA 或接近 SOTA 的性能,包括两个 flat NER 数据集、三个嵌套 NER 数据集和三个不连续 NER 数据集。

Contribution

  • 本文提出了一种统一的生成式的框架来解决 flat NER、nested NER、discontinuous NER 三种不同的子任务。

  • 将预训练的 seq2seq 模型 BART 融入框架,并利用三种实体表示将实体线性化为一个序列,对探索 BART 在实体序列生成中的应用提供了一定的参考价值。

  • 避免了复杂的标记,而是使用指针方式进行标记,并在 8 个英文数据集上达到或接近 SOTA。

Method

这个图还是很容易看明白的(这张图画的真好看hhh)。

输入是句子 token,然后得到 token embedding 以及 position embedding,然后喂给一个 BART Encoder,将 encode 出的隐层状态过一个 MLP 与 token 单纯的 token embedding 做加权。

本文将 token 与 tag 的序号分开,上面是 token 部分,而 tag 部分也简单的得到其tag embedding(与 token 部分使用同一套参数)。

分别得到 token 与 tag的表示后,与 decoder 的当前隐层状态做点积,然后 concat,过一个 softmax 层得到最终所有 token 以及 tag 的分布。

使用该分布进行生成,得到 token 或者 tag 的序列,并将其解析成抽取出的实体及类型(解析方法如下图所示)。

最终使用负对数似然函数来作为损失函数,更新参数。

BART 训练过程中使用了 BPE(用不在句子中出现过的 token 代替频繁出现的 token 序列)。

此外,本文测试了三种基于指针的定位原始句子中实体的方法:

  • Span:实体每个起始点与结束点,若不连续则连着写

  • BPE:所有的Token位置

  • Word:只记录开始位置

Experiment

▲ 针对flat NER的实验结果

▲ 针对nested NER的实验结果

▲ 针对discontinuous NER的实验结果

▲ 总体实验结果

此外,本文还研究了实体在句子中出现的顺序与召回率的关系。

可以看到,在 flat NER 与 discontinuous NER 中,召回率都明显的随着位置出现的靠后而增加,但嵌套 NER 的情况明显比较复杂。

原因其实可以想见,后一位置中的实体可以是包含前一实体的更复杂的实体。对前一实体的错误预测可能会对后一实体产生负面影响。

▲ 实体在句子中出现的位置顺序与召回率的关系

Conclusion

本文将 NER 子任务描述为一个实体生成序列生成问题,从而可以使用统一的 Seq2Seq 模型和指针机制来处理扁平的、嵌套的和不连续的 NER 子任务。Seq2Seq 方式使得能够顺利地整合训练前的 Seq2Seq 模型 BART,以提高性能。

为了更好地利用 BART,本文测试了三种类型的实体表示方法,以将实体跨度线性化为序列。结果表明,长度更短、更接近连续 BPE 序列的实体表示具有更好的性能。本文提出的方法在 8 个不同的 NER 数据集上都达到了 SOTA 或接近 SOTA 的性能,证明了它对各种 NER 子任务的通用性。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

???? 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

ACL 2021 | 复旦大学邱锡鹏组:面向不同NER子任务的统一生成框架相关推荐

  1. 复旦大学邱锡鹏组最新综述:A Survey of Transformers!

    作者 | Tnil@知乎 编辑 | NewBeeNLP 转眼Transformer模型被提出了4年了.依靠弱归纳偏置.易于并行的结构,Transformer已经成为了NLP领域的宠儿,并且最近在CV等 ...

  2. 复旦大学邱锡鹏教授:语言模型即服务,走向大模型的未来

    来源:智源社区 作者:智源社区 整理:周致毅 人类一直期待AI能在处理自然语言方面大放异彩,语言大模型在近些年已逐渐成为NLP领域的标配.随着模型的扩张,当前大模型的调用已变成上游厂商开放API供下游 ...

  3. 复旦大学邱锡鹏教授:NLP预训练模型综述

    ©PaperWeekly 原创 · 作者|王馨月 学校|四川大学本科生 研究方向|自然语言处理 引言 随深度学习的发展,多种神经网络都被应用在 NLP 任务中,比如 CNN.RNN.GNN 和 att ...

  4. 复旦大学邱锡鹏教授:一张图带你梳理深度学习知识脉络

    Datawhale 作者:邱锡鹏,复旦大学教授 寄语:本文梳理了深度学习知识体系,分为机器学习.神经网络和概率图模型,同时对机器学习算法类型.深度学习原理框架等进行了梳理,帮助大家更好地学习和入手深度 ...

  5. 复旦大学邱锡鹏:若优化顺利,MOSS三月底开源;库克或被踢出苹果董事会;华为云联合CSDN发布智能化编程助手Snap|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  6. 复旦大学邱锡鹏:若优化顺利,MOSS三月底开源;库克或被踢出苹果董事会;华为云联合CSDN发布智能化编程助手Snap|极客头条...

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  7. 复旦大学邱锡鹏团队发布类 ChatGPT 模型MOSS

    不知道这个人工智能,有没有获得完整的一生. ChatGPT 是最先进的 AI,也是最热门的应用 -- 自去年 11 月底发布以来,它的月活跃用户两个月超过一亿,轻松拿到了全球互联网史上用户增长速度的第 ...

  8. 复旦大学邱锡鹏教授:词法、句法分析研究进展综述

    本文为第十六届自然语言处理青年学者研讨会 YSSNLP2019 报告<词法.句法分析研究进展综述>的简要文字整理,本报告主要回顾词法.句法领域的最新研究进展. 关于报告人: 邱锡鹏,复旦大 ...

  9. 开放下载!复旦大学邱锡鹏教授发布教科书《神经网络与深度学习》

    点击"小詹学Python","星标"或"置顶" 关键时刻,第一时间送达 本文转载自"机器之心" 从2016到2019,根 ...

最新文章

  1. 拼多多员工爆料:拼多多开启硬核模式!午休减半!每月工作300小时!千万别来拼多多!...
  2. 正则表达式中grep,sed的用法(包括基本的正则表达式和扩展的正则表达式)
  3. Android多线程死锁定位,Java---多线程之死锁
  4. c++ vector嵌套传参
  5. IIs+php 最精简的环境配置
  6. win10诊断启动后联网_小技巧:win10网络共享文件夹出现错误无法访问如何解决?...
  7. dp打开思路4:POJ1189 UVA12511 HDU2845 HBCPC K
  8. Js数组去重的多种方法
  9. NodeJS(四)Mac下如何安装package.json里面会产生依赖项
  10. Java:一步步带你深入了解神秘的Java反射机制
  11. 四步破解大亚DP607超级密码,别的光猫可能也适用!
  12. bzoj 3752: Hack 预处理+暴力dfs
  13. [bug解决] IndentationError unindent does not match any outer indentation level
  14. 提示wininet.dll文件找不到的解决
  15. CAD如何完成10以上带圈序号的输入?
  16. 在deepin 上安装佳能MF 4700打印机驱动
  17. DayDayUp:此刻,可以坐在家里,来一次,说走就走的【VR虚拟旅行】1000多个国内外景区免费看!
  18. 简述窄带与宽带信号的区别
  19. 网卡超时实现机制 watchdog_timeo/ndo_tx_timeout
  20. Echarts实现多个x轴或y轴曲线图

热门文章

  1. kettle在linux定时任务_在Linux下设置Kettle的定时任务
  2. MongoDB 学习(一)安装配置和简单应用
  3. 分块试水--CODEVS5037 线段树练习4加强版
  4. 软件工程——团队作业3
  5. 动态规划求解序列问题(LIS、JLIS)
  6. NYOJ 737---石子归并(GarsiaWachs算法)
  7. 在 windows 命令行下快速检测与排除网络故障
  8. mysql安装过程以及启动服务中的若干问题
  9. html 分级切换菜单_FL studio系列教程(十六):FL Studio查看菜单讲解
  10. 我的世界拿java开服务器_我的世界如何开服务器