允中 发自 凹非寺
量子位 编辑 | 公众号 QbitAI

近日,由中国中文信息学会医疗健康与生物信息处理专业委员会发起的中文医疗健康信息处理挑战榜-CBLUE(Chinese Biomedical Language Understanding Evaluation) 正式上线了,这是国内首个公开的中文医疗自然语言处理领域benchmark,榜单的推出将会促进医疗领域数据科技的发展,对医疗人工智能技术的发展和创新起着重要意义。

为什么医疗文本需要进行自然语言处理?

先简单介绍下什么是自然语言处理,自然语言处理简称NLP(Natural Language Processing),是以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,是人工智能的一个重要子方向。自然语言处理技术已经在各行各业中得到了广泛应用,如智能司法、智慧医疗等。

回到医疗文本上,我们设想这样一种场景,医生希望从病历库中筛选出满足特定临床条件的患者来开展科研工作,如“家族病史中患有2型糖尿病”的患者。熟悉电子病历的读者都知道,“家族史”一般出现在病历中一段段的自然语言文本中,是非结构化的信息,因此无法直接使用计算机来做处理,而依靠人工从海量病历库中做挑选是费时费力的,这就需要NLP技术大展身手了。NLP技术可以辅助从非结构化文本中识别出关键信息,如“疾病”、“检查”、“手术”等医学核心概念,医生可以基于这些结构化的信息来完成模型建模工作。

完成病历信息结构化是否就足够了呢?假如我们要统计一个区域内患有“2型糖尿病”的患者总数,实际会面临到的问题是对于临床上同一种诊断、手术、检查、化验等,医生往往会有成百上千种不同的写法,以“2型糖尿病”为例,其它可能的写法有“Ⅱ型糖尿病”,“糖尿病(2型)”等,如果要准确统计到“2型糖尿病”的患者总数,就需要将不同的叫法都映射到同一个标准的名称上,如ICD(International Classification of Disease)编码,这个过程我们称为医学术语标准化,也是需要NLP技术来支持的。

除了上述提到的结构化和标准化之外,NLP技术还在医学检索、互联网在线问诊、体检报告解读等多个场景中发挥着重要作用。

为什么要建设中文医学标准数据集?

人工智能发展的三要素是数据、算力和算法,“数据”是最基础的环节,如果把人工智能比作是火箭,那数据就是火箭发射的燃料,以计算机视觉(CV)为例,ImageNet[1]的推出极大促进了CV技术的发展。

医学人工智能技术要取得发展当然也离不开标准数据集的建设,但建设过程中也面临诸多难点:首先是医疗数据涉及到权属和合规问题,要求在绝对安全的前提下才可以被使用,这使得医学数据的获取成本非常高;其次医学是一门专业性很强且非常严谨的科学,数据的规范制定以及标注均需要专家的参与,因此数据集的构建比较耗时,这也会限制数据集的规模。

国外的医疗信息化进程起步较早,在标准数据集的建设和规范制定上比较领先。随着国家人工智能战略的推进,国内医疗AI产业在近年来也取得了快速发展。

在医疗NLP数据集建设方面,中国中文信息学会的两个旗舰会议CHIP(China Health Information Processing Conference)和CCKS(China Conference on Knowledge Graph and Semantic Computing)每年都发布医疗信息处理相关的学术评测比赛,此外一些竞赛平台如阿里云天池也会不定期举办一些医疗AI比赛,这些评测数据集均有效促进了相关领域的技术发展,并吸引了更多研究者对医疗AI领域的关注。然而这些数据集一般在比赛结束之后就不再开放下载,这对数据集的获取以及后续的研究均造成了一定的困难。如果能够集中维护这些数据集并授权开放下载使用,对推动医学NLP社区的发展将会有着积极的意义

近年来预训练语言模型技术(如BERT[2] )成为NLP领域的研究热点,一个重要原因是预训练语言模型泛化性好,在很多NLP下游任务上均取得不错的性能。同时得益于预训练语言模型技术的发展,催生出一批多任务benchmark榜单,代表性的工作是GLUE[3]。多任务榜单的设立重在考察模型的泛化能力,因此又促进了预训练语言模型技术的发展。

CBLUE榜单是什么?

CBLUE就是在这样的背景下产生的,是由中国中文信息学会医疗健康与生物信息处理专业委员发起,由阿里云天池平台承办,并由北京大学、医渡云(北京)技术有限公司等开展智慧医疗研究的单位共同协办。

CBLUE的全名是Chinese Biomedical Language Understanding Evaluation,挑战榜覆盖了医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学问答4大类常见的医学信息处理任务共包括8个子任务。数据集主要由CHIP大会往届的学术评测比赛和部分医学搜索业务数据集组成,业务数据集的特点是数据真实且有噪音,对模型的鲁棒性提出了更高的要求。CBLUE是国内首个医疗NLP领域的公开评测benchmark。

榜单上线后得到了学界、医界和业界的广泛关注,来自浙江大学软件学院的研究生小刘表示,自己从事的研究方向是医疗大数据分析,CBLUE榜单的推出刚好解决了研究过程中缺乏标准数据集的难题,并且榜单中有部分任务是自己之前没有涉及过的,极大的开拓了自己的技术视野。小刘还注意到榜单的提交单位中除了高校实验室以外,还有很多国内知名的医疗AI企业和医学院所,如协和医学院,表明了CBLUE挑战榜在行业中被广泛认可,同时能和这么多知名机构同台竞技也让自己更有动力在医疗AI领域深耕。

中国中文信息学会医疗健康与生物信息处理专业委员会副主任兼秘书长汤步洲老师表示,以合法开放共享的理念组织医学信息学领域的基础和核心任务的评测,构建公开统一共识的医学信息系统性能评估平台,可以推动医学信息学的快速发展,并助力健康中国战略!

相信CBLUE榜单的发布能推动国内医学AI社区数据标准的建设和技术发展,并且在医学AI人才培养、医学临床研究和医疗人工智能技术落地上都起到重要的作用。

CBLUE榜单专题页地址是:https://tianchi.aliyun.com/specials/promotion/2021chinesemedicalnlpleaderboardchallenge/?spm=a2c41.22837839.0.0 ,欢迎对医疗健康赛道感兴趣的读者前往网址,或点击“阅读原文”进行挑战。

[1] http://www.image-net.org/
[2] https://arxiv.org/abs/1810.04805
[3] https://gluebenchmark.com/

助力健康中国,国内首个中文医疗信息处理挑战榜正式发布相关推荐

  1. 百度ERNIE新突破,登顶中文医疗信息处理权威榜单CBLUE冠军

    医疗领域存在大量的专业知识和医学术语,人类经过长时间的学习才能成为一名优秀的医生.那机器如何才能"读懂"医疗文献呢?尤其是面对电子病历.生物医疗文献中存在的大量非结构化.非标准化文 ...

  2. 百度ERNIE新突破 登顶中文医疗信息处理权威榜单CBLUE冠军

    医疗领域存在大量的专业知识和医学术语,人类经过长时间的学习才能成为一名优秀的医生.那机器如何才能"读懂"医疗文献呢?尤其是面对电子病历.生物医疗文献中存在的大量非结构化.非标准化文 ...

  3. 聚焦医疗人工智能,TPP助力“健康中国2030”建设

    上海2018年8月16日电 /美通社/ -- 为进一步推进和提升智慧医疗在临床管理方面的应用和认知,国际领先的智能医疗领导品牌 TPP(中文名:智凰软件科技有限公司,以下全部简称为 TPP)日前参加由 ...

  4. 第八届广州市社会组织公益创投“爱无限 心关爱”助力健康中国项目成果展暨党建引领公益展示活动

    <"健康中国2030"规划纲要>提出,对于促进心理健康要求,其中明确提出加强心理健康服务体系建设和规范化管理.加大全民心理健康科普宣传力度,提升心理健康素养.加强对抑郁 ...

  5. 助力南京银行打造国内首个分布式核心业务系统

    在金融和互联网的交界领域,阿里云正在架桥铺路,宗旨是让更多金融机构能够将自身的金融能力和互联网业务场景对接起来,从而聚集起助推金融行业数字化转型的力量. 4月26日,在云栖大会·南京峰会上,南京银行宣 ...

  6. 考拉阅读CEO赵梓淳:如何利用AI、语言学做出国内首个中文分级阅读系统?

    在一批在线教育试水者当中,赵梓淳带领的考拉阅读有点不太一样. 因为国内做分级阅读的虽然不多,但是做中文的分级阅读,国内目前却仅有他们一家. 考拉阅读CEO赵梓淳 在在线教育这个领域,考拉阅读算是一名新 ...

  7. [转发] 【GRT安智网】HTC安致手机ROM国内首个中文定制教程goapk首发[最新厨房V0......

    2019独角兽企业重金招聘Python工程师标准>>> 支持的设备: HTC系列机型(用厨房分解DHD等部分新机型的system.img的时候.切记选择Explore2fs来解包.否 ...

  8. CBLUE-阿里天池中文医疗NLP打榜

    本文主要介绍CMeEE命名实体识别和CMeIE实体关系两个赛道 中文医学命名实体识别(CMeEE) 博主提供一个baseline供参考,代码由本人基于pytorch实现https://github.c ...

  9. 中文医疗NLP榜单-CBLUE介绍

    最近发现了一个医疗行业的数据集任务榜单: 中文医疗信息处理挑战榜,本着利己利他的原则简单记录下这个数据集榜单,方便后续学习使用. 从名字来看,CBLUE又是一个*LUE榜单,大家都知道近年来NLP领域 ...

最新文章

  1. 重温经典之《企业应用架构模式》——.NET中的架构模式运用 (Base Patterns 1)
  2. 2016年11月13日周工作知识点总结
  3. Android怎么自定义listview布局,Android ListView自定义布局
  4. 35款让你爱不释手的网页元素PSD素材
  5. 现实版“神笔马良”!“90后”小伙把贫困村画成网红景点!
  6. checkbox:全选与反全选
  7. 【转载】浅析输入法原理
  8. 为啥你写的代码总是这么复杂?
  9. 湖北省地税应用灾备中心正式启用
  10. 比Google Map更加清晰的网络地图——RealBird
  11. 一文读懂javascript深拷贝与浅拷贝
  12. R语言基础 期中考试
  13. 学会这几点,不懂代码也能做出炫酷可视化大屏!
  14. qtxlsx编译报错_QtXlsx编译错误*** [Makefile:37: sub-xlsx-qmake_all] Error 2
  15. 整车控制器(VCU)的功能
  16. DTOJ#4955. CCJ的探险
  17. 从零开始搭建EasyDarwin环境——linux系统共享目录实现
  18. 创意小项目:单片机锂电池容量测试仪设计制作 附C语言源代码
  19. 路由策略 策略路由
  20. 解决socket连接超时问题

热门文章

  1. 如何使用十进制range()步长值?
  2. 是否可以在另一个CSS文件中包含一个?
  3. MySQL 8.0版本无法使用 node、Navicat等三方工具连接的问题
  4. 有种软件你不得不备着,那就是数据恢复类软件
  5. C#_数据库基本交互
  6. Openstack 小知识点
  7. 修改openssh源代码,添加操作记录审记功能
  8. Robotframework+selenium+ride自动化框架搭建(Mac)
  9. Xamarin.Android部署失败
  10. 缩略图信息提取工具vinetto