最近发现了一个医疗行业的数据集任务榜单: 中文医疗信息处理挑战榜,本着利己利他的原则简单记录下这个数据集榜单,方便后续学习使用。

从名字来看,CBLUE又是一个*LUE榜单,大家都知道近年来NLP领域随着预训练语言模型(下面简称PTLM)的兴起又迎来了一波迅猛发展,得益于PTLM技术的推动,催生出一批多任务的benchmark榜单,代表性的工作是GLUE,在中文领域也有CLUE。CBLUE的全名是Chinese Biomedical Language Understanding Evaluation,是目前国内首个医疗AI方向的多任务榜单,相信这个榜单的推出会促进医疗语言模型的发展和医疗NLP领域的发展。榜单的官网介绍如下:

中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、北京大学等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。

官网介绍榜单一共包含了4大类8细类任务,下面分别介绍:

  • 医学信息抽取:

    • 主要包含了实体识别NER任务和关系抽取RE两个数据集:

      • CMeEE(Chinese Medical Entity Extraction):是由“北京大学”、“郑州大学”、“鹏城实验室”和“哈尔滨工业大学(深圳)”联合提供。共包括9大类实体:疾病(dis),临床表现(sym),药物(dru),医疗设备(equ),医疗程序(pro),身体(bod),医学检验项目(ite),微生物类(mic)和科室(dep),其中“临床表现”实体类别中允许嵌套,该实体内部允许存在其他八类实体。嵌套实体一向是NER任务中一个难点。
      • CMeIE(Chinese Medical Information Extraction):和CMeEE任务一样,也是由“北京大学”、“郑州大学”、“鹏城实验室”和“哈尔滨工业大学(深圳)”联合提供的。共包括53类关系类型(具体类型参见官网介绍),这个任务需要打榜选手完成端对端的模型预测,即输入是原始的句子,选手需要完成实体识别和关系抽取两个任务。从关系种类的数量53类来看,且标注规范中有提及到关系可能是跨句子分布的(“Combined”字段为false),这是一个比较难的任务。
  • 医学术语归一化:
    • 这个任务按照我的理解是应该归属到信息抽取这个大类的,都属于知识图谱构造的关键技术,不知道官方为什么单独划分为一类,可能是有其他考虑。包括了一个数据集:

      • CHIP-CDN(CHIP - Clinical Diagnosis Normalization dataset):CHIP这个名字一开始比较困惑,Google上查找了半天也没有找到是什么,后来仔细看官方文档才发现CHIP就是这个榜单的发起单位组织的专业会议(历史经验告诉我们任何时候都要认真读文档),CHIP表示中国健康信息处理会议,全称是China Health Information Processing Conference,是中国中文信息学会医疗健康与生物信息处理专业委员会主办的关于医疗、健康和生物信息处理和数据挖掘等技术的年度会议,是中国健康信息处理领域最重要的学术会议之一,这个会议已经连续举办了六届,最近几届都发布了医疗方向的学术评测任务,这个榜单很多以CHIP开头的数据集就是来源于大会上发布的评测任务。言归正传,CHIP-CDN数据集是由北京医渡云公司提供的,这是一个标准的实体标准化/归一化任务,将给定的医学症状实体映射到医学标准字典(ICD-10)上。这是一个很有实际意义的任务,医生在书写病历的时候,同一个术语往往有多种不同的写法,甚至一个症状可能是多个标准症状的叠加(如官网中的例子:“右肺结节转移可能大” -> “肺占位性病变##肺继发恶性肿瘤##转移性肿瘤”),非常的复杂。这类任务一般不能只靠模型来解决,需要结合具体的行业知识来做判定。
  • 医学文本分类:
    • 包括两个任务:

      • CHIP-CTC(CHiP - Clinical Trial Criterion dataset):是由同济大学生命科学与技术学院提供,主要针对临床试验筛选标准进行分类,所有文本数据均来自于真实临床试验,也是一个有真实意义的任务。 从技术上看,这是一个典型的短文本多分类问题,共有44个类别(具体类别请参照官网),分类任务研究相对较多,一般需要注意的是类别比例的分布。
      • KUAKE-QIC(KUAKE-Query Intention Classification dataset),是由夸克浏览器提供。这也是一个文本分类问题,共有11种分类(具体分类请查看官网),和CHIP-CTC数据集的区别是这个任务的输入均来自于真实的用户query,数据存在大量的噪音。
  • 医学句子关系判定/医学QA:
    • 包括3个数据集:

      • CHIP-STS(CHIP - Semantic Textual Similarity dataset):是由平安医疗科技公司提供。是一个典型的语义相似度判断问题,数据集共包含5大类疾病,输出结果是0/1两类标签。这个任务应该不算太难,其中疾病的类别信息也是一个输入,模型在设计的时候要把这个feature考虑进去。
      • KUAKE-QTR(KUAKE-Query Title Relevance dataset):也是由夸克公司提供,搞搜索推荐算法的小伙伴们一看就知道是一个QT match的问题,相比CHIP-STS,这个数据集是一个4分类问题(共0~3分 4档)。官网给的例子还是挺有难度区分的,感觉模型不太容易跑出高性能。
      • KUAKE-QQR(KUAKE-Query Query Relevance dataset):也是由夸克公司提供。和KUAKE-QTR类似,是一个典型的Query-Query match问题,是一个3分类问题(共0~2分 3档)。难点同QTR。

榜单设置基本覆盖了*LUE的问题大类,数据集来源分布广,包括了医学教科书、指南、临床试验文本以及互联网用户真实Query,是一个非常好的医疗NLP榜单。希望这个榜单能促进行业数据标准化并进一步推进医疗AI的快速落地。

最后附上CBLUE榜单的相关链接:

CBLUE官方网站:

https://tianchi.aliyun.com/cblue

CBLUE数据集具体介绍&下载页面:

数据集-阿里云天池

CBLUE Paper: https://arxiv.org/abs/2106.08087

CBLUE Github:CBLUEbenchmark/CBLUE

觉得有用的筒子们帮忙点赞和关注哈~

中文医疗NLP榜单-CBLUE介绍相关推荐

  1. 百度ERNIE新突破,登顶中文医疗信息处理权威榜单CBLUE冠军

    医疗领域存在大量的专业知识和医学术语,人类经过长时间的学习才能成为一名优秀的医生.那机器如何才能"读懂"医疗文献呢?尤其是面对电子病历.生物医疗文献中存在的大量非结构化.非标准化文 ...

  2. 百度ERNIE新突破 登顶中文医疗信息处理权威榜单CBLUE冠军

    医疗领域存在大量的专业知识和医学术语,人类经过长时间的学习才能成为一名优秀的医生.那机器如何才能"读懂"医疗文献呢?尤其是面对电子病历.生物医疗文献中存在的大量非结构化.非标准化文 ...

  3. 厉害了!GitHub中文开源项目榜单出炉,揭露了程序员的硬性需求

    点击上方"Github中文社区",关注 看遍Github好玩的项目 第50期原创 来自:Github中文社区  作者:huber 大家好!我是hub哥,咱们又见面了! 不知道大家是 ...

  4. 阿里推出文本搜索排序新技术,登顶国际权威NLP榜单MS MARCO

    3月28日,阿里巴巴团队以0.450的得分,刷新了国际权威自然语言处理(NLP)榜单MS MARCO短文本检索排序任务历史纪录.据悉,该团队最新研发的文本检索及排序技术已通过阿里云智能搜索产品Open ...

  5. CBLUE-阿里天池中文医疗NLP打榜

    本文主要介绍CMeEE命名实体识别和CMeIE实体关系两个赛道 中文医学命名实体识别(CMeEE) 博主提供一个baseline供参考,代码由本人基于pytorch实现https://github.c ...

  6. 医疗NLP实践与思考

    医疗NLP实践与思考 深度学习技术在许多医学问题上取得成功: 医学图像分类和分割:CNN 文本中信息抽取.疾病预测:CNN.RNN.transformer 病患语音识别和机器翻译:RNN.Seq2Se ...

  7. PYPL 二月榜单发布:最受欢迎的编程语言、IDE 和数据库都是哪些

    开发四年只会写业务代码,分布式高并发都不会还做程序员?   PYPL(PopularitY of Programming Language,编程语言流行指数) 二月榜单已发布,目前包含四个排行榜,分别 ...

  8. PYPL 7月榜单公布:Java份额出现下降趋势

    PYPL(PopularitY of Programming Language,编程语言流行指数) 7 月份的榜单已发布,目前包含四个排行榜,囊括编程语言.IDE.ODE(Online IDE) 以及 ...

  9. 爬取网易云歌曲榜单中网易云歌曲及其对应id xpath csv re requests python

    基操爬取网易云歌曲榜单中网易云歌曲及其对应id 回顾xpath csv re requests 先进行基础抓包! 1 2 3 然后就是代码啦,兄弟们,我的代码都很完整,看懂思路,直接收藏复制粘贴就可以 ...

最新文章

  1. 服务器无线网卡驱动程序,在Ubuntu里使用Windows的无线网卡驱动程序的方法教程...
  2. 前端登陆加密和后端解密
  3. C# 字符串大小写混合转换(同时进行)
  4. 【新星计划】MATLAB plot绘制图像
  5. try-with-resources引起的Socket关闭,产生java.net.SocketException: Socket is closed?
  6. 《漫画线性代数》读书笔记 用矩阵解方程组
  7. 200922阶段一C++关联容器map
  8. 征信逾期了,5年后能自动消除吗?
  9. java命令模式_Java中的命令设计模式
  10. LeetCode——maximal-rectangle
  11. TSynDBDataSet内存表
  12. 【源代码】Image Deformation Using Moving Least Squares算法的实现
  13. 超级APP势不可挡--20190706
  14. 三菱plc指令dediv_三菱plc指令tcmp的用法
  15. SVM支持向量机原理总结
  16. 计算机的音量找不到了,win7旗舰版64位系统右下角音量小喇叭图标不见了怎么找回...
  17. canvas绘制出货单
  18. 项目实训--Unity多人游戏开发(十、游戏GUI界面与PUN大厅房间)
  19. 2019腾讯校园招聘面经
  20. nginx proxy_pass 502 这是什么错误?

热门文章

  1. Python matplotlib库绘图时设置标题 (label)、坐标轴 (axis) 和标注 (legend)的字体及大小
  2. 伦敦旅游体验推荐:全英偶像之旅
  3. 通过token窃取实现降权或者提权
  4. NodeMCU检测Flash按键实现长按触发(用于进入设计好的配置模式)(C++开发)
  5. 程序员:妹妹高考650多,她想选择互联网专业,我该怎么劝?
  6. 2020年十大黑科技:新冠疫苗当仁不让,脑机接口引领风潮
  7. NYOJ-779-兰州烧饼
  8. PDF文件怎么在线压缩?教你在线压缩的方法
  9. 欧国联 法国 vs 德国
  10. 神舟电脑装linux双系统,神舟战神笔记本:win10 安装 ubuntu 双系统