点击上方,选择星标置顶,每天给你送干货

阅读大概需要8分钟

跟随小博主,每天进步一丢丢

整理:AINLP

命名实体识别(NameEntity Recognition)是信息提取的一个子任务,其目的是将文本中的命名实体定位并分类为预定义的类别,如人员、组织、位置等。它是信息抽取、问答系统和句法分析等应用领域的重要基础技术,是结构化信息抽取的重要步骤。

目前可公开访问获得的、高质量、细粒度的中文NER数据集较少,我们(CLUE)基于清华大学开源的文本分类数据集THUCNEWS,选出部分数据进行细粒度命名实体标注,并对数据进行清洗,得到一个细粒度的NER数据集。

项目地址:

https://github.com/CLUEbenchmark/CLUENER2020

更多细节请参考我们的技术报告:

https://arxiv.org/abs/2001.04351

数据类别:

CLUENER2020共有10个不同的类别,包括:

  • 组织(organization)

  • 人名(name)

  • 地址(address)

  • 公司(company)

  • 政府(government)

  • 书籍(book)

  • 游戏(game)

  • 电影(movie)

  • 职位(position)

  • 景点(scene)

每个示例包含两个部分:输入的原始文本和标记的序列。原始文本是一条新闻中的一两句话;标记的序列被组织成键值对。在给定的示例中,一个类别可能会有多个实体。

数据字段解释:

以train.json为例,数据分为两列:text & label,其中text列代表文本,label列代表文本中出现的所有包含在10个类别中的实体。
例如:
text: "北京勘察设计协会副会长兼秘书长周荫如"
label: {"organization": {"北京勘察设计协会": [[0, 7]]},"name": {"周荫如": [[15, 17]]},"position": {"副会长": [[8, 10]],"秘书长": [[12, 14]]}
}
其中, organization, name, position代表实体类别,"organization": {"北京勘察设计协会": [[0, 7]]}:
表示原text中, "北京勘察设计协会"
是类别为 "组织机构(organization)"
的实体, 并且start_index为0, end_index为7( 注:下标从0开始计数)"name": {"周荫如": [[15, 17]]}:
表示原text中, "周荫如"
是类别为 "姓名(name)"
的实体, 并且start_index为15, end_index为17"position": {"副会长": [[8, 10]],"秘书长": [[12, 14]]}:
表示原text中, "副会长"是类别为 "职位(position)"的实体, 并且start_index为8, end_index为10, 同时, "秘书长"也是类别为 "职位(position)"的实体,并且start_index为12, end_index为14

标签类别定义 & 标注规则:

地址(address): **省**市**区**街**号,**路,**街道,**村等(如单独出现也标记)。地址是标记尽量完全的, 标记到最细。
书名(book): 小说,杂志,习题集,教科书,教辅,地图册,食谱,书店里能买到的一类书籍,包含电子书。
公司(company): **公司,**集团,**银行(央行,中国人民银行除外,二者属于政府机构), 如:新东方,包含新华网/中国军网等。
游戏(game): 常见的游戏,注意有一些从小说,电视剧改编的游戏,要分析具体场景到底是不是游戏。
政府(government): 包括中央行政机关和地方行政机关两级。中央行政机关有国务院、国务院组成部门(包括各部、委员会、中国人民银行和审计署)、国务院直属机构(如海关、税务、工商、环保总局等),军队等。
电影(movie): 电影,也包括拍的一些在电影院上映的纪录片,如果是根据书名改编成电影,要根据场景上下文着重区分下是电影名字还是书名。
姓名(name): 一般指人名,也包括小说里面的人物,宋江,武松,郭靖,小说里面的人物绰号:及时雨,花和尚,著名人物的别称,通过这个别称能对应到某个具体人物。
组织机构(organization): 篮球队,足球队,乐团,社团等,另外包含小说里面的帮派如:少林寺,丐帮,铁掌帮,武当,峨眉等。
职位(position): 古时候的职称:巡抚,知州,国师等。现代的总经理,记者,总裁,艺术家,收藏家等。
景点(scene): 常见旅游景点如:长沙公园,深圳动物园,海洋馆,植物园,黄河,长江等。

数据下载地址:

数据下载:

https://www.cluebenchmarks.com/introduce.html

数据分布:

训练集:10748
验证集集:1343按照不同标签类别统计,训练集数据分布如下(注:一条数据中出现的所有实体都进行标注,如果一条数据出现两个地址(address)实体,那么统计地址(address)类别数据的时候,算两条数据):
【训练集】标签数据分布如下:
地址(address):2829
书名(book):1131
公司(company):2897
游戏(game):2325
政府(government):1797
电影(movie):1109
姓名(name):3661
组织机构(organization):3075
职位(position):3052
景点(scene):1462【验证集】标签数据分布如下:
地址(address):364
书名(book):152
公司(company):366
游戏(game):287
政府(government):244
电影(movie):150
姓名(name):451
组织机构(organization):344
职位(position):425
景点(scene):199

数据来源:

本数据是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS.

效果对比

CLUE组织现已完成多个基线模型的测评,相关代码传送门:

tf版本

https://github.com/CLUEbenchmark/CLUENER2020/tree/master/tf_version

pytorch版本

https://github.com/CLUEbenchmark/CLUENER2020/tree/master/pytorch_version

具体结果可在我们的排行榜(https://www.cluebenchmarks.com/introduce.html)上进行查阅。

各个实体的评测结果(F1 score):

欢迎加入技术交流与问题讨论QQ群:836811304。

如果本目录中的内容对你的研究工作有所帮助,请在文献中引用下述报告:https://arxiv.org/abs/2001.04351

@article{xu2020cluener2020,title={CLUENER2020: Fine-grained Name Entity Recognition for Chinese},author={Xu, Liang and Dong, Qianqian and Yu, Cong and Tian, Yin and Liu, Weitang and Li, Lu and Zhang, Xuanwei},journal={arXiv preprint arXiv:2001.04351},year={2020}}

以下是论文全文,感兴趣的同学可以参考,点击图片可以放大阅读:


方便交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读:

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biaffine Dependency  Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的?

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作


让更多的人知道你“在看”

【NER】中文细粒度命名实体识别数据集来了相关推荐

  1. CLUENER 细粒度命名实体识别baseline:BiLSTM-CRF

    文章目录 数据类别 标签类别定义 & 标注规则 数据下载地址 数据分布 数据字段解释 数据来源 baseline:BiLSTM-CRF 运行 参考 命名实体识别(NameEntity Reco ...

  2. 【AdaSeq基础】30+NER数据汇总,涉及多行业、多模态命名实体识别数据集收集

    简介 命名实体识别NER是NLP基础任务,一直以来受到学术界和业界的广泛关注,本文汇总了常见的中英文.多语言.多模态NER数据集介绍. 相关数据详情可以访问链接: https://github.com ...

  3. CLUENER 细粒度命名实体识别,附完整代码

    CLUENER 细粒度命名实体识别 文章目录 CLUENER 细粒度命名实体识别 一.任务说明: 二.数据集介绍: 2.1 数据集划分和数据内容 2.2 标签类别和定义: 2.3 数据分布 三.处理j ...

  4. 介绍几个专门面向中文的命名实体识别和关系抽取工具

    知识图谱已经在人工智能的各个领域发挥越来越重要的作用,例如视觉问答.对话系统.推荐系统等.知识图谱构建是应用这些知识图谱的基础,而面对生活和企业中数据的爆发式增长,自动化知识图谱构建显得越来越重要.从 ...

  5. 基于BERT+BiLSTM+CRF的中文景点命名实体识别

    赵平, 孙连英, 万莹, 葛娜. 基于BERT+BiLSTM+CRF的中文景点命名实体识别. 计算机系统应用, 2020, 29(6): 169-174.http://www.c-s-a.org.cn ...

  6. 最新最全-中文生物医学命名实体识别最新研究论文、资源、数据集、性能整理分享

    本资源旨在跟踪中文生物医学自然语言处理的进展,收集整理相关的论文列表和展示现存方法性能. 内容整理自网络,源地址:https://github.com/lingluodlut/Chinese-BioN ...

  7. 清华阿里联合发布:一个Few-shot场景的命名实体识别数据集

    2021-05-31 15:17:32 作者 | 陈雨琳.丁宁 编辑 | 刘冰一 近来,围绕着 "少样本命名实体识别"(few-shot NER)这一主题,出现了大量的工作和文献. ...

  8. 基于tensorflow深度学习的中文的命名实体识别

    参考: https://blog.csdn.net/u012879957/article/details/80924757

  9. 在线中文命名实体识别 ( NER ) 的工具

    在线中文命名实体识别( NER )的工具 命名实体识别(Named Entity Recognition,简称NER),又称作"专名识别",是指识别文本中具有特定意义的实体,主要包 ...

  10. 信息抽取实战:命名实体识别NER【ALBERT+Bi-LSTM模型 vs. ALBERT+Bi-LSTM+CRF模型】(附代码)

    实战:命名实体识别NER 目录 实战:命名实体识别NER 一.命名实体识别(NER) 二.BERT的应用 NLP基本任务 查找相似词语 提取文本中的实体 问答中的实体对齐 三.ALBERT ALBER ...

最新文章

  1. 代码动态创建checkbox
  2. Socket、Tcp、Udp 概念区分
  3. py2exe for python3_使用Py2Exe for Python3创建自己的exe程序
  4. python现在时间减去过去时间等于20分钟怎么写_获取当前时间减去10分钟的话SQL语句怎么写...
  5. 拥有这个证书的医务人员恭喜了,国家正式通知……
  6. [总结] LCT学习笔记
  7. 程序员工作5年后,在管理通道和技术通道上,如何抉择?
  8. Github Pages部署个人博客(Hexo篇)
  9. 基于Java的博客系统
  10. 云计算分布式架构简介
  11. 在CUDA10的环境下安装支持gpu的tensorflow版本(亲测有效)
  12. DEV C++ 关于自动缺省源设置问题
  13. 如何查询台式计算机的网络密码,如何查看电脑无线网络密码?两种查看方法
  14. 北卡罗来纳州立大学计算机科学,北卡罗来纳州立大学计算机科学理学硕士研究生申请要求及申请材料要求清单...
  15. Java与咖啡豆 - Java命名由来
  16. spring中AutoWired/Quafifier/Primary及相关注解知识
  17. android波浪动画简书,Android贝塞尔曲线————波浪效果(大波浪)
  18. 【Zeekr_Tech】整车OTA概述
  19. android 心跳包的分析
  20. 辞职在家半年,有幸获得阿里内推机会,鏖战4面成功拿下offer!

热门文章

  1. JDBC基础篇(MYSQL)——自定义JDBCUtil工具类
  2. bzoj4869: [Shoi2017]相逢是问候(欧拉函数+线段树)
  3. HDU2206:IP的计算
  4. Android中将EditText里面的内容设置成任意想要的状
  5. 使用opensl 的BufferQueueAudioPlayer对wav文件的播放
  6. c#的IList,IEnumerable和IEnumerator
  7. JS弹出窗口的运用与技巧
  8. Ubuntu外观美化安装WPS
  9. $.each(callback)方法
  10. java:高速排序算法与冒泡排序算法