每天给你送来NLP技术干货!


论文:A Span-Based Model for Joint Overlapped and Discontinuous Named Entity Recognition

链接:https://aclanthology.org/2021.acl-long.372.pdf

代码:https://github.com/foxlf823/sodner

提取摘要

由于普通的NER问题被研究的透透的了,本文主要解决一种稍微复杂些问题:一种带有覆盖和不连续(Overlapped and Discontinuous)的命名实体识别任务。

而在这两者研究上来说,前人只是要么解决覆盖问题,要么解决不连续问题,但是本文提出一种联合解决这两种问题的span-based方法。

span-based方法昨天也提到过了,所以关于实体+关系抽取的任务都可以尝试。

本文通过两个步骤构建模型:

  1. 通过列举所有可能的text span来识别出实体片段(entity fragments);

  2. 在这些entity fragments上预测是两种关系overlapping or succession。

这样,我们不仅可以识别Discontinuous的实体,同时也可以对Overlapped的实体进行双重检查。

通过上述方法轻松将NER装换成RE(Relation Extraction)任务。最终实验在很多数据集上比如CLEF, GENIA and ACE05上展现除了很强劲的性能。

和往常的BIO标注的序列标注问题对比:

具体解读

该模型的步骤为

  1. input一方面通过pre-train模型获取word rep,一方面通过dependency parsing获取句法信息;

  2. GCN集合LSTM的输出和句法输入,得到syntax-enhanced的新的表达;

  3. 获取所有span表示;

  4. 通过两个MLP预测span是否为实体,以及实体时间是否有关系;

  5. 最后每个loss加上权重,为最终优化目标。

关键分类

AGGCN用来融入句法信息

attention-guided GCN (AGGCN)比普通GCN要强一些,所以这里选用该方法。传统的GCN:

而AGGCN就是使用self-attention,替换以前的邻接矩阵A,最后通过线性方法将multi head生成的结果合一:

Span的表示

解码

先预测实体片段,再预测关系。

解码公式

损失计算

实验

实验数据介绍

在数据上的表现

在其他数据上与前人的对比,虽然性能不如SOTA,但是这种Span-based方式和SOTA差不了多少,是个新颖的想法。


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易,还望给个在看!

ACL2021 | 一种巧妙解决NER覆盖和不连续问题的方法相关推荐

  1. 工业界如何解决NER问题?12个trick,与你分享~

    NER是一个已经解决了的问题吗?或许,一切才刚刚开始. 例如,面对下面笔者在工作中遇到的12个关于NER的系列问题,你有什么好的trick呢?不着急,让我们通过本篇文章,逐一解答- Q1.如何快速有效 ...

  2. [论文阅读笔记26]MRC4NER:使用阅读理解方法来解决NER任务

    题目 A Unified MRC Framework for Named Entity Recognition 命名实体识别的统一MRC框架 论文URL:https://www.semanticsch ...

  3. linux升级网卡fw,一种linux环境下覆盖多品牌硬盘的FW升级方法与流程

    本发明属于服务器硬盘升级技术领域,具体涉及一种linux环境下覆盖多品牌硬盘的FW升级方法. 背景技术: 随着浪潮服务器的不断发展和壮大,作为国内最大的服务器供应商,服务器市场已经囊括各个领域,客户对 ...

  4. 电视linux系统怎么连wifi密码错误,智能电视连不上WIFI不用急,6种简单解决办法搞定!...

    原标题:智能电视连不上WIFI不用急,6种简单解决办法搞定! 现在智能电视已经大范围普及,给我们的客厅娱乐带来的很多便利,但是智能电视在使用过程中经常会遇到各种问题,其中连接WiFi失败的问题最为常见 ...

  5. 消消乐游戏中,一种巧妙的消除条件判别算法

    目录 前言 所要解决的问题 问题分析 解决办法 总结 前言 本文介绍了一种消消乐游戏的核心规则算法,我已经填了N个标签戳,相信你应该不会因为王者荣耀而搜到这篇文章.我们这里只介绍消消乐中关于三个相同颜 ...

  6. ICCV2021|一种用于解决点云场景中同类对象分割的网络

    首次提出:一种用于解决点云场景中同类对象分割的端到端网络 融合协同对比学习和相互注意采样机制进行无监督点云对象的同类分割 Unsupervised Point Cloud Object Co-segm ...

  7. 一种巧妙的drawable.xml替代方案

    如何维护(替换)drawable xml是android开发中一个老生常谈的话题.按照标准的Android布局开发模式,我们不得不为各种UI效果新建不同的xml文件进行描述,哪怕是简单的一个圆角.随着 ...

  8. IDEA——找不到或无法加载主类的一种暴力解决方法

    IDEA--找不到或无法加载主类的一种暴力解决方法 参考文章: (1)IDEA--找不到或无法加载主类的一种暴力解决方法 (2)https://www.cnblogs.com/jsjliyang/p/ ...

  9. php 迭代器迭代中文时重复,3种方式解决iterator迭代器并发修改异常

    3种方式解决iterator迭代器并发修改异常ConcurrentModificationException 在使用迭代器的时候,时长会遇到 ConcurrentModificationExcepti ...

  10. Android之解决键盘覆盖编辑框问题

    1.问题 键盘覆盖编辑框问题 2.解决办法 在Activity里面的onCreate方法里面加下代码 getWindow().setSoftInputMode(WindowManager.Layout ...

最新文章

  1. 【计算机网络】网络层 : 网络层简介 ( 功能 | 拥塞控制 )
  2. 变革后的维密,做了一款不赚钱的内衣
  3. ASP.NET中MVC编程模式简介与搭建HelloWorld项目
  4. 手写单隐层神经网络_鸢尾花分类(matlab实现)
  5. ssrs行高_SSRS中的备用行颜色
  6. 程序员一年稳赚50w,却被群嘲只造改bug!TA说:2020年我的愿望是........
  7. python 动态语言 优美_Python动态语言之魅力大揭秘
  8. 数据分析与机器学习之线性回归与逻辑回归(六)
  9. firewalld-富规则使用内容事项:
  10. Julia : 类型别名
  11. mugen linux主程序,MUGEN主程序
  12. 贪吃蛇的c语言运行程序,用C语言编写贪吃蛇游戏的程序
  13. Django入门,,适用小白
  14. 修改pdf文件的软件
  15. 2022广东省安全员A证第三批(主要负责人)考试题库及答案
  16. Dreamweaver CS6安装教程
  17. Cloudera Manager安装教程
  18. 天眼查、企查查APP的Authorized值和sign值破解思路记载
  19. Java字符和数字列对齐_字符串(包含中英文、数字、符号)的对齐
  20. while循环:珠穆朗玛峰案例

热门文章

  1. MySQL Binlog--binlog_format参数
  2. FreeRTOS之源码 及 移植详解
  3. iOS上线后程序崩溃日志处理-- Crashlytics
  4. Cortex M3/M4 学习摘要(一)
  5. Qweb Pdf 中添加 图片
  6. Leetcode那点事儿
  7. lt;转载自刘佳ID:freedom0203和waretgt; C++中成员初始化列表的使用
  8. 【leetcode】二分查找经典题目
  9. go学习笔记-包处理
  10. WEB安全第六篇--千里之外奇袭客户端:XSS和HTML注入