点击下面卡片关注我呀,每天给你送来AI技术干货!

博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI

NER(命名实体识别)作为NLP的一项基本任务,其日常是训练人工智能(zhang)对一段文本中的专有名词(人名、地名、机构名等)进行识别和分类。

烟台:我招谁惹谁了?

翻译成计算机语言,就是从一段非结构化的自然语言中找到各种实体,并将其分为合适的类别。且避免出现“江大桥同志到底就任了多少年南京市长”这样的问题

但在数据缺乏,样本不足的前提下,如何基于先验知识进行分类和学习,这就是目前NLPer面临的一道难题——少样本(Few-Shot)。

虽然已有越来越多针对少样本NER的研究出现(比如预训练语言模型BERT),但仍没有一个专属数据集以供使用。

而现在,共包含来自维基百科的18万条句子,49万个实体和460万标注,并具有8个粗粒度(coarse-grained types)实体类型和66个细粒度(fine-grained types)实体类型的数据集来了。

这就是清华大学联合阿里达摩院共同开发的,行业内第一个人工标注(human-annotated)的少样本NER数据集,FEW-NERD

什么样的数据集?

对比句子数量、标记数、实体类型等统计数据,FEW-NERD比相关领域内已有的NER数据集都要更大。

此外,它也是规模最大的人工标注的数据集。

为实体命名常常需要联系上下文,尤其是在实体类型很多时,注解难度将大大增加。

而FEW-NERD的注释来自70位拥有语言学知识的注释者,以及10位经验丰富的专家。

具体而言,每个段落会交由两人独立完成注释,然后由专家审查,再对分批抽取数据进行双重检查。这很好地保证了注释的准确性。

比如上述“London is the fifth album by the British rock band…”这句话中的实体“London”,就被准确标注成了“Art-Music”。

而在以段落为单位进行标注时,因为样本量并不多,所以FEW-NERD数据的类别分布预计是相对平衡的,这也是它与以往NER数据集的一个关键区别。

并且在实践中,大多数未见的实体类型都是细粒度的。而传统的NER数据集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18个粗粒度的类型。

这就难以构建足够多的N元任务(N-way metatasks),并训练学习相关特征。

相比之下,FEW-NERD共包含了112个实体标签, 并具有8个粗粒度实体类型,和66个细粒度实体类型。

内圈代表粗粒度的实体类型,外圈代表细粒度的实体类型。

基准的选择

为了探索FEW-NERD所有实体类型之间的知识相关性(knowledge correlations),研究者进行了实体类型相似性的实证研究。

方块代表两个实体类型的相似度。

从实验结果得知,相同粗粒度类型的实体类型具有较大的相似性,从而使知识迁移更加容易。

这启发了研究者从知识迁移的角度进行基准设定。最终设置了三个基准:

  • FEW-NERD (SUP)
    采用标准的监督式NER设置,将70%的数据随机分割为训练数据,10%为验证数据,20%为测试数据。

  • FEW-NERD(INTRA)
    少样本学习任务,只包含粗粒度实体类型。

  • FEW-NRTD (INTER)
    少样本学习任务,包含60%的细粒度类型,20%的细粒度类型。

实际的应用

针对少样本命名实体识别,FEW-NERD提供了一个同时包含粗粒度和细粒度,且统一基准的大型数据集。

而作者也指出,由于精确的上下文标注,FEW-NERD数据集不仅可以用于少样本场景,在监督学习、终身学习、开放信息抽取、实体分类等任务上也可以发挥作用。

此外,建立在FEW-NERD基础上的模型和系统,还能帮助构建各个领域的知识图谱(KGs),包括生物医学、金融和法律领域,并进一步促进NLP在特定领域的应用发展。

开发者还表示,将在未来增加跨域注释、远距离注释和更精细的实体类型来扩展FEW-NERD。

数据集官网链接:
https://ningding97.github.io/fewnerd/
数据集下载:
https://github.com/thunlp/Few-NERD
论文地址:
https://arxiv.org/abs/2105.07464

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

点击上面卡片,关注我呀,每天推送AI技术干货~

整理不易,还望给个在看!

ACL-IJCNLP 2021|行业首个少样本NER数据集,清华联合阿里达摩院开发相关推荐

  1. 行业首个少样本NER数据集,清华联合阿里达摩院开发 | ACL-IJCNLP 2021

    博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI NER(命名实体识别)作为NLP的一项基本任务,其日常是训练人工智能(zhang)对一段文本中的专有名词(人名.地名.机构名等)进行识别和分 ...

  2. CVPR 2021商品识别竞赛来了!阿里达摩院主办

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 最大商品图库识别竞赛: 阿里巴巴主办CVPR 2021商品识别竞赛 赛事主页链接: https://tian ...

  3. 阿里达摩院联合友盟+ ,推出国内首个智能推送

    你还记得最近因为优秀的推送文案而让你印象深刻的App是哪个么?某游戏的热血邀约?某标题党的新闻资讯?或者是某次约会提醒? 恐怕很多人的答案是否定的.因为有无数的案例证明现在主流的推送方案问题多多,已经 ...

  4. 极客日报第 39 期:小米 11 不送充电器;阿里达摩院 2021 十大科技趋势发布!

    文章目录 一.互联网快讯 二.程序员专属 三.Github 每日精选 四.CSDN 社区优质博文精选 一.互联网快讯 1.小米手机:小米 11 将取消随机附送充电器 12 月 26 日,雷军在新浪微博 ...

  5. 日均调用量超13亿次,阿里达摩院研发全球首个实时翻译直播-1

    近几年来,直播电商到处开花,但绝大多数都是国内的中文直播.如果想买外国电商主播推荐的商品,语言不通怎么办? 这一难题已被阿里巴巴(下称 "阿里")攻克,阿里速卖通是面向全球海外消费 ...

  6. 日均调用量超13亿次,阿里达摩院研发全球首个实时翻译直播

    近几年来,直播电商到处开花,但绝大多数都是国内的中文直播.如果想买外国电商主播推荐的商品,语言不通怎么办? 这一难题已被阿里巴巴(下称 "阿里")攻克,阿里速卖通是面向全球海外消费 ...

  7. 575万奖金! 2021数学界「诺奖」阿贝尔奖揭晓,以色列数学家威格森获奖,曾担任阿里达摩院十大祖师...

    转载自:新智元 [导读]数学界三大奖项之一「阿贝尔奖」揭晓.挪威科学和文学院将2021年阿贝尔奖授予匈牙利厄特沃什·罗兰大学教授László Lovász和美国普林斯顿高等研究院教授Avi Wigde ...

  8. 微软、UIUC韩家炜组联合出品:少样本NER最新综述

    ©PaperWeekly 原创 · 作者 | 蔡杰 单位 | 北京大学硕士生 研究方向 | QA 当前的机器学习和深度学习模型都需要大量的标注数据来进行训练,以达到一个较好的效果.但是在带 label ...

  9. 阿里达摩院 | 基于预训练语言模型的行业搜索

    作者|谢朋峻 阿里巴巴达摩院 整理|DataFunTalk 大家好,这里是NewBeeNLP.本文将分享行业搜索的相关技术和应用,主要包括三大部分: 行业搜索的背景 相关技术研究 行业搜索应用 01 ...

  10. 曝阿里达摩院大模型 M6 带头人杨红霞已离职:个人选择,非行业原因

      报道   作者:李梅(AI科技评论) 编辑:Aeneas David [导读]阿里 M6 大模型带头人杨红霞,已从阿里巴巴达摩院智能计算实验室离职. AI科技评论获悉,阿里 M6 大模型的原带头人 ...

最新文章

  1. Android的启动脚本–init.rc
  2. java byte数组转string_Java调用C++接口(初步了解)
  3. 第八篇——Struts2的处理结果类型
  4. JQuery中click() 和onclick()区别
  5. 服务降级及dubbo中的实现示例
  6. Linux 与 Unix 到底有什么不同?
  7. Tomcat的默认连接器
  8. 幼儿园体育游戏电子计算机教案,【幼儿园体育跳圈圈教案】小班体育教案跳圈圈_小班跳圈圈游戏教案_亲亲宝贝网...
  9. Spring MVC基础入门
  10. 帝骑k触屏模拟器_假面骑士decade神主牌模拟器手机版下载|
  11. 电脑如何进行长截图?
  12. 松本行弘的程序世界阅读记录
  13. 系统学习深度学习(十六)--Overfeat
  14. mysql dcn_Tdsql DCN同步技术原理介绍
  15. nodejs初学者大全
  16. 百度AI—人脸在线比对
  17. python 自己选择excel保存的位置
  18. LNMP架构搭建(源码编译)
  19. JavaScript编程技术基础
  20. mysql got signal 11_从库crash一直自动重启(mysqld got signal 11)问题解决

热门文章

  1. 【CodeForces - 707B】Bakery(思维水题)
  2. credential for git
  3. JDBC基础篇(MYSQL)——自定义JDBCUtil工具类
  4. Socket 学习(三).5 UDP 的弱点
  5. 文章,记录按内容分页显示,根据文章内容按字数进行分页(转)
  6. IP多播技术[为软件高校杯做准备]
  7. intellij idea参数提示param hints
  8. ABP .Net Core 部署到IIS 问题汇总
  9. 一个精心制作的页眉样式
  10. 【codevs1378】选课——树形动规