ACL-IJCNLP 2021|行业首个少样本NER数据集,清华联合阿里达摩院开发
点击下面卡片,关注我呀,每天给你送来AI技术干货!
博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI
NER(命名实体识别)作为NLP的一项基本任务,其日常是训练人工智能(zhang)对一段文本中的专有名词(人名、地名、机构名等)进行识别和分类。
△烟台:我招谁惹谁了?
翻译成计算机语言,就是从一段非结构化的自然语言中找到各种实体,并将其分为合适的类别。且避免出现“江大桥同志到底就任了多少年南京市长”这样的问题
但在数据缺乏,样本不足的前提下,如何基于先验知识进行分类和学习,这就是目前NLPer面临的一道难题——少样本(Few-Shot)。
虽然已有越来越多针对少样本NER的研究出现(比如预训练语言模型BERT),但仍没有一个专属数据集以供使用。
而现在,共包含来自维基百科的18万条句子,49万个实体和460万标注,并具有8个粗粒度(coarse-grained types)实体类型和66个细粒度(fine-grained types)实体类型的数据集来了。
这就是清华大学联合阿里达摩院共同开发的,行业内第一个人工标注(human-annotated)的少样本NER数据集,FEW-NERD。
什么样的数据集?
对比句子数量、标记数、实体类型等统计数据,FEW-NERD比相关领域内已有的NER数据集都要更大。
此外,它也是规模最大的人工标注的数据集。
为实体命名常常需要联系上下文,尤其是在实体类型很多时,注解难度将大大增加。
而FEW-NERD的注释来自70位拥有语言学知识的注释者,以及10位经验丰富的专家。
具体而言,每个段落会交由两人独立完成注释,然后由专家审查,再对分批抽取数据进行双重检查。这很好地保证了注释的准确性。
比如上述“London is the fifth album by the British rock band…”这句话中的实体“London”,就被准确标注成了“Art-Music”。
而在以段落为单位进行标注时,因为样本量并不多,所以FEW-NERD数据的类别分布预计是相对平衡的,这也是它与以往NER数据集的一个关键区别。
并且在实践中,大多数未见的实体类型都是细粒度的。而传统的NER数据集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18个粗粒度的类型。
这就难以构建足够多的N元任务(N-way metatasks),并训练学习相关特征。
相比之下,FEW-NERD共包含了112个实体标签, 并具有8个粗粒度实体类型,和66个细粒度实体类型。
△内圈代表粗粒度的实体类型,外圈代表细粒度的实体类型。
基准的选择
为了探索FEW-NERD所有实体类型之间的知识相关性(knowledge correlations),研究者进行了实体类型相似性的实证研究。
△方块代表两个实体类型的相似度。
从实验结果得知,相同粗粒度类型的实体类型具有较大的相似性,从而使知识迁移更加容易。
这启发了研究者从知识迁移的角度进行基准设定。最终设置了三个基准:
FEW-NERD (SUP)
采用标准的监督式NER设置,将70%的数据随机分割为训练数据,10%为验证数据,20%为测试数据。
FEW-NERD(INTRA)
少样本学习任务,只包含粗粒度实体类型。
FEW-NRTD (INTER)
少样本学习任务,包含60%的细粒度类型,20%的细粒度类型。
实际的应用
针对少样本命名实体识别,FEW-NERD提供了一个同时包含粗粒度和细粒度,且统一基准的大型数据集。
而作者也指出,由于精确的上下文标注,FEW-NERD数据集不仅可以用于少样本场景,在监督学习、终身学习、开放信息抽取、实体分类等任务上也可以发挥作用。
此外,建立在FEW-NERD基础上的模型和系统,还能帮助构建各个领域的知识图谱(KGs),包括生物医学、金融和法律领域,并进一步促进NLP在特定领域的应用发展。
开发者还表示,将在未来增加跨域注释、远距离注释和更精细的实体类型来扩展FEW-NERD。
数据集官网链接:
https://ningding97.github.io/fewnerd/
数据集下载:
https://github.com/thunlp/Few-NERD
论文地址:
https://arxiv.org/abs/2105.07464
说个正事哈
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。
(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
点击上面卡片,关注我呀,每天推送AI技术干货~
整理不易,还望给个在看!
ACL-IJCNLP 2021|行业首个少样本NER数据集,清华联合阿里达摩院开发相关推荐
- 行业首个少样本NER数据集,清华联合阿里达摩院开发 | ACL-IJCNLP 2021
博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI NER(命名实体识别)作为NLP的一项基本任务,其日常是训练人工智能(zhang)对一段文本中的专有名词(人名.地名.机构名等)进行识别和分 ...
- CVPR 2021商品识别竞赛来了!阿里达摩院主办
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 最大商品图库识别竞赛: 阿里巴巴主办CVPR 2021商品识别竞赛 赛事主页链接: https://tian ...
- 阿里达摩院联合友盟+ ,推出国内首个智能推送
你还记得最近因为优秀的推送文案而让你印象深刻的App是哪个么?某游戏的热血邀约?某标题党的新闻资讯?或者是某次约会提醒? 恐怕很多人的答案是否定的.因为有无数的案例证明现在主流的推送方案问题多多,已经 ...
- 极客日报第 39 期:小米 11 不送充电器;阿里达摩院 2021 十大科技趋势发布!
文章目录 一.互联网快讯 二.程序员专属 三.Github 每日精选 四.CSDN 社区优质博文精选 一.互联网快讯 1.小米手机:小米 11 将取消随机附送充电器 12 月 26 日,雷军在新浪微博 ...
- 日均调用量超13亿次,阿里达摩院研发全球首个实时翻译直播-1
近几年来,直播电商到处开花,但绝大多数都是国内的中文直播.如果想买外国电商主播推荐的商品,语言不通怎么办? 这一难题已被阿里巴巴(下称 "阿里")攻克,阿里速卖通是面向全球海外消费 ...
- 日均调用量超13亿次,阿里达摩院研发全球首个实时翻译直播
近几年来,直播电商到处开花,但绝大多数都是国内的中文直播.如果想买外国电商主播推荐的商品,语言不通怎么办? 这一难题已被阿里巴巴(下称 "阿里")攻克,阿里速卖通是面向全球海外消费 ...
- 575万奖金! 2021数学界「诺奖」阿贝尔奖揭晓,以色列数学家威格森获奖,曾担任阿里达摩院十大祖师...
转载自:新智元 [导读]数学界三大奖项之一「阿贝尔奖」揭晓.挪威科学和文学院将2021年阿贝尔奖授予匈牙利厄特沃什·罗兰大学教授László Lovász和美国普林斯顿高等研究院教授Avi Wigde ...
- 微软、UIUC韩家炜组联合出品:少样本NER最新综述
©PaperWeekly 原创 · 作者 | 蔡杰 单位 | 北京大学硕士生 研究方向 | QA 当前的机器学习和深度学习模型都需要大量的标注数据来进行训练,以达到一个较好的效果.但是在带 label ...
- 阿里达摩院 | 基于预训练语言模型的行业搜索
作者|谢朋峻 阿里巴巴达摩院 整理|DataFunTalk 大家好,这里是NewBeeNLP.本文将分享行业搜索的相关技术和应用,主要包括三大部分: 行业搜索的背景 相关技术研究 行业搜索应用 01 ...
- 曝阿里达摩院大模型 M6 带头人杨红霞已离职:个人选择,非行业原因
报道 作者:李梅(AI科技评论) 编辑:Aeneas David [导读]阿里 M6 大模型带头人杨红霞,已从阿里巴巴达摩院智能计算实验室离职. AI科技评论获悉,阿里 M6 大模型的原带头人 ...
最新文章
- Android的启动脚本–init.rc
- java byte数组转string_Java调用C++接口(初步了解)
- 第八篇——Struts2的处理结果类型
- JQuery中click() 和onclick()区别
- 服务降级及dubbo中的实现示例
- Linux 与 Unix 到底有什么不同?
- Tomcat的默认连接器
- 幼儿园体育游戏电子计算机教案,【幼儿园体育跳圈圈教案】小班体育教案跳圈圈_小班跳圈圈游戏教案_亲亲宝贝网...
- Spring MVC基础入门
- 帝骑k触屏模拟器_假面骑士decade神主牌模拟器手机版下载|
- 电脑如何进行长截图?
- 松本行弘的程序世界阅读记录
- 系统学习深度学习(十六)--Overfeat
- mysql dcn_Tdsql DCN同步技术原理介绍
- nodejs初学者大全
- 百度AI—人脸在线比对
- python 自己选择excel保存的位置
- LNMP架构搭建(源码编译)
- JavaScript编程技术基础
- mysql got signal 11_从库crash一直自动重启(mysqld got signal 11)问题解决