OpenKG地址:http://openkg.cn/dataset/tcm-ner

阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=86819

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:阿里云(陈漠沙)


1、背景

疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作。通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础。本数据集就是在这样的背景下提出的,通过抽取中药药品说明书中的关键信息,达到自动构建中医药药品知识库的目标。

2、数据集

2.1 数据来源

TCM-NER(Traditional Chinese Medicine - Named Entity Recgonization Dataset)数据源来自中药药品说明书,TCM-NER包含1,997篇文档,训练集、验证集和测试集分别为1,000, 500和497个,共标注实体59,803个。

2.2 标注规范

本数据集由中医专家定义了13类实体:

·药品(DRUG):中药名称,指在中医理论指导下,用于预防、治疗、诊断疾病并具有康复与保健作用的物质。中药主要来源于天然药及其加工品,包括植物药、动物药、矿物药及部分化学、生物制品类药物。例子: 六味地黄丸、逍遥散

·药物成分(DRUG_INGREDIENT): 中药组成成分,指中药复方中所含有的所有与该复方临床应用目的密切相关的药理活性成分。例子:当归、人参、枸杞

·疾病(DISEASE): 疾病名称,指人体在一定原因的损害性作用下,因自稳调节紊乱而发生的异常生命活动过程,是特定的异常病理情形,而且会影响生物体的部分或是所有器官。通常解释为“身体病况”(medical condition),而且伴随着特定的症状及医学征象。例子:高血压、心绞痛、糖尿病

·症状(SYMPTOM): 指疾病过程中机体内的一系列机能、代谢和形态结构异常变化所引起的病人主观上的异常感觉或某些客观病态改变。例子:头晕、心悸、小腹胀痛

·证候(SYNDROME): 中医学专用术语,概括为一系列有相互关联的症状总称,即通过望、闻、问、切四诊所获知的疾病过程中表现在整体层次上的机体反应状态及其运动、变化,简称证或者候,是指不同症状和体征的综合表现,单一的症状和体征无法表现一个完整的证候。 例子:血瘀、气滞、气血不足、气血两虚

·疾病分组(DISEASE_GROUP): 疾病涉及有人体组织部位的疾病名称的统称概念,非某项具体医学疾病。例子:肾病、肝病、肺病

·食物(FOOD):指能够满足机体正常生理和生化能量需求,并能延续正常寿命的物质。对人体而言,能够满足人的正常生活活动需求并利于寿命延长的物质称之为食物。例子:苹果、茶、木耳、萝卜

·食物分组(FOOD_GROUP): 中医中饮食养生中,将食物分为寒热温凉四性,同时中医药禁忌中对于具有某类共同属性食物的统称,记为食物分组。例子:油腻食物、辛辣食物、凉性食物

·人群(PERSON_GROUP): 中医药的适用及禁忌范围内相关特定人群。例子:孕妇、经期妇女、儿童、青春期少女

·药品分组(DRUG_GROUP): 具有某一类共同属性的药品类统称概念,非某项具体药品名。例子:止咳药、退烧药

·药物剂型(DRUG_DOSAGE): 药物在供给临床使用前,均必须制成适合于医疗和预防应用的形式,成为药物剂型。例子:浓缩丸、水蜜丸、糖衣片

·药物性味(DRUG_TASTE): 药品的性质和气味。例子:味甘、酸涩、气凉

·中药功效(DRUG_EFFICACY): 药品的主治功能和效果的统称,例子:滋阴补肾、去瘀生新、活血化瘀

2.3 标注数据示例

本数据集采用常规的offset下标标记法:

2.4 数据集统计信息

数据集统计信息如下:

文档数量

标注实体数

平均实体数/文档

训练集

1,000

18,478

30.68

验证集

500

4,373

29.76

测试集

497

5,096

28.66

表1: TCM-QC统计信息

实体类别分布如下:

图1: 实体类别分布

2.5 数据集特点

TCM-NER有如下特点:

(1)类别分布不均匀:数据来源于真实世界,如图1所示,实体类型遵行长尾分布。标签分布不均匀是NER任务的一大挑战。

(2)专业性强:中医文本存在许多专业领域词汇,部分类别之间较难区分,如本任务重定义了“症状”和“症候”两类概念,进一步加大了任务的难度。

3、结语

TCM-NER是业界首个中医领域的实体识别数据集,希望本数据集的开放能够促进抽取中药信息抽取,知识图谱自动构建等领域的技术发展。

4、致谢

感谢医学标注专家郎珍珍和标注人员辛勤细致的付出!


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

开源开放 | 中药说明书实体识别数据集TCM-NER相关推荐

  1. AI比赛-NER:“万创杯”中医药天池大数据竞赛——中药说明书实体识别挑战

    大赛概况 疫情催化下,人工智能正在持续助力中医药传承创新加速发展,其中中医用药知识体系沉淀挖掘是一个基础工作.通过挖掘中药说明书构建中药合理用药的知识图谱,将为中医规范诊疗奠定较好基础.挑战旨在通过抽 ...

  2. 中药说明书实体识别抽取top1

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 人工智能加速了中医药领域的传承创新发展,其中中医药文本的信息抽取部分是构建中医药知识图谱的核心 ...

  3. 【AdaSeq基础】30+NER数据汇总,涉及多行业、多模态命名实体识别数据集收集

    简介 命名实体识别NER是NLP基础任务,一直以来受到学术界和业界的广泛关注,本文汇总了常见的中英文.多语言.多模态NER数据集介绍. 相关数据详情可以访问链接: https://github.com ...

  4. 清华阿里联合发布:一个Few-shot场景的命名实体识别数据集

    2021-05-31 15:17:32 作者 | 陈雨琳.丁宁 编辑 | 刘冰一 近来,围绕着 "少样本命名实体识别"(few-shot NER)这一主题,出现了大量的工作和文献. ...

  5. 浅谈嵌套命名实体识别(Nested NER)

    ©PaperWeekly 原创 · 作者|张成蹊 单位|北京大学硕士生 研究方向|自然语言处理 序 命名实体识别(Named Entity Recognition, 下称 NER)任务,主要目的是从一 ...

  6. python中文命名实体识别工具包_中文命名实体识别工具(NER)比较

    既然中文分词.词性标注已经有了,那下一步很自然想到的是命名实体识别(NER,Named-entity recognition)工具了,不过根据我目前了解到的情况,开源的中文命名实体工具并不多,这里主要 ...

  7. Github上10个开源好用的人脸识别数据集

    在本文中,我们列出了 10 个可用于启动人脸识别项目的人脸数据集. 1| Flickr-Faces-HQ 数据集 (FFHQ) Flickr-Faces-HQ 数据集(FFHQ)是一个由人脸组成的数据 ...

  8. 面向新闻媒体的命名实体识别技术

    ☝点击上方蓝字,关注我们! [导读] 媒体资讯对新闻事件进行报导或评论,这些新闻事件的基本要素可以使用命名实体识别技术(NER)进行提取,如人物.机构.地点.时间.专有名词等.提取文章中的实体对于自媒 ...

  9. 系统学习NLP(十一)--命名实体识别

    转自:https://www.cnblogs.com/bep-feijin/articles/9650898.html 命名实体识别(Named EntitiesRecognition, NER)是自 ...

最新文章

  1. PyCharm 查找文件名
  2. MySQL设置某一字段默认为0,但是插入数据化却显示为null
  3. vue自定义组件并使用
  4. 单台web服务器性能,单台web服务器如何尽可能的提高网站性能
  5. IDEA部署Tomcat报错[RMI TCP Connection(6)-127.0.0.1]
  6. 【Python】处理 from sklearn.externals import joblib 报错问题
  7. pythonbool类型数组生成_对numpy中布尔型数组的处理方法详解
  8. metal分析是什么意思_变压器原理是什么?容量是什么意思?电力工程技术专家精讲分析...
  9. 9.82万枚ETH在近一周被质押至以太坊2.0合约
  10. java 迭代器失效_迭代器失效的几种情况
  11. 个性化新闻文章推荐的上下文Bandit方法
  12. 今天讲座的感悟--java
  13. 《设计工作室生存手册》—第1章1.3节设计师目标要清晰
  14. python中的ord,chr函数
  15. vba遗传算法之非一致性突变
  16. 【算法基础一】字符编码分类
  17. BUUCTF[强网杯 2019]随便注 的三种解法
  18. 【产品】蓝绿发布、滚动发布和灰度发布对比
  19. 【用来参考】AndroidQ SystemUI之锁屏加载(上)滑动锁屏
  20. MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction

热门文章

  1. 交换机Meth0是什么端口,啥作用?
  2. 中长期定存利率下行 大额存单还“香”吗
  3. 学习型索引在数据库中的应用实践
  4. 苹果手机更新后开不了机_苹果7突然黑屏,苹果7开不了机
  5. 2018最新CATIA飞机协同设计制造工作站配置方案
  6. Geodetic集合(c++)
  7. Python编程:实现词云生成(附详细源码)
  8. IOS编译报错:objc-class-ref........
  9. 最近工作里遇到的一些问题,记录下来
  10. apple 上传app store