转载公众号 | OMAHA联盟


人工智能正在变得司空见惯。在医疗领域,医生也越来越重视人工智能所带来的疾病诊断效率和治疗价值的提升。要实现医疗人工智能,需要构建医学知识图谱以满足医疗领域对知识的应用需求。

  ◆  ◆

知识图谱是什么?

知识图谱,顾名思义,就是用图的形式将知识表示出来,其本质是通过结构化而非纯文本的方式描述事物的属性以及事物之间的关联。

知识图谱由节点和边组成,节点表示实体、概念或属性值,任何物体、地点或人都可以是一个节点;边表示实体的属性或实体间的关系,而三元组是知识图谱的基本表示形式。举个例子来说,一个节点可以是一个组织机构,比如心内科,也可以是一个疾病,比如高血压;边则描述了高血压和心内科之间的“疾病-科室”关系,(高血压,科室,心内科)就是一条简单的三元组。

知识图谱示例

  ◆  ◆

为什么我们需要医学知识图谱?

随着自然语言处理等技术的逐渐成熟,医学人工智能已成为推动行业发展的强劲动力。然而,要想让机器具有智能,能做到像人一样去理解和思考,就必须让机器具有知识。

在专业化程度集中的医疗领域,这些知识往往来源于经过严格的行业内审核、在行业内达成共识的内容,例如教科书、临床指南、临床路径等资料。然而,这些资料大多以非结构化的形式呈现,存在数据处理复杂,开发门槛高的问题,限制了知识能力的释放,更不用说让机器去理解和应用知识。

如果我们提前把这些资料以一种机器可读的形式整理好,让机器直接去读取,是否可行呢?

答案是可行的,以这些医学资料为基础建立医学知识图谱,可以将其中自由文本形式的内容转化为完全结构化、计算机可理解的形式,与非结构的文本数据相比,结构化的知识图谱可以一种更加清晰、准确的方式表示人类知识,便于机器读取和应用。

知识图谱结构化示例

  ◆  ◆

医学知识图谱应用场景

医学知识图谱的使用价值也可以从主流应用场景中一探究竟,目前医学知识图谱主要应用于语义搜索、知识问答、临床决策支持等场景中。

1. 语义搜索。传统的搜索主要为关键词搜索,这种搜索引擎对查询的处理局限于词的表面形式,缺乏知识处理能力和理解能力。知识图谱描述了事物的分类、属性和关系,具有丰富的语义信息,将其应用于语义搜索可实现准确地捕捉到用户所输入语句后面的真正搜索意图,从而更准确地返回最符合用户需求的搜索结果。

2. 知识问答。基于知识库的问答(Knowledge-Based Question Answering,KBQA)也称知识问答,主要依托于大型的知识库,将用户的自然语言问题转化成结构化查询语句,直接从知识库中导出用户所需的答案。医学知识较其他领域相比专业性更高,非专业人士很难通过自主理解一堆资源文档,来精准地找到相关问题的答案。因此,基于医学知识图谱的KBQA可以帮助患者更加快捷、便利地获得问题的答案,适用于医学知识科普、智能导诊、自诊等领域。

3. 临床决策支持。临床决策支持(Clinical Decision Support,CDS)是指运用相关的、系统的临床知识和患者基本信息及病情信息,向临床医务工作者提供加强医疗相关的决策和行动的信息,提高医疗质量和医疗服务水平。具有临床决策支持功能的系统,称为临床决策支持系统(Clinical Decision Support System,CDSS),医学知识图谱中包含丰富的医学基础知识,可以作为CDSS知识库中的重要组成部分,它为CDSS的推荐结果提供了可解释的依据,能够协助系统从辅助诊断、治疗方案推荐、合理用药检测等方面为临床医务人员提供决策支持。

随着技术和行业的发展,目前知识图谱也被应用于辅助药物研发、公共卫生事件的预警场景中。

1. 药物研发。近年来,人工智能辅助药物研发逐渐成为研究的热点。知识图谱可应用于药物研发的知识的聚类分析,帮助提出新的可以被验证的假说,从而加速药物研发的过程,降低研发成本。

2. 公关卫生事件应对。在流行病学调查和疫情发生事件的分析和预警等公共卫生事件场景中,知识图谱采用图存储数据的理念可以起到非常大的帮助。例如,利用知识图谱的形式可以直观地表示流行病调查中的人员分布、人员活动轨迹、发病时间等信息,基于图展示出的信息可以更方便的用于病例之间相关性的分析,更快地分析和梳理出感染源头。

  ◆  ◆

构建医学知识图谱的难点在哪?

医学知识主要具有术语多样化、知识分散、质量参差不齐、知识复杂等特点,这些特点也为医学知识图谱的构建、应用带来一定挑战。

1.术语多样化。医学术语是医学专业领域中一般概念的词语指称,广泛分布在医疗记录、医学文献和医学教科书等信息资源中。目前我国还未建立规范、统一的医学术语标准,这也就使得相关从业者在不同场景下使用医学术语较为随意,最终导致同一个医学概念存在多种术语表达方式的现象普遍存在。此外,外文翻译导致的错别字等问题,也是导致术语多样性的原因。

2.知识分散。以疾病为例,目前为止没有任何一个知识源可以涵盖针对某一疾病的所有知识。产生这一现象的主要原因有两个:一个是医学知识更新迭代迅速,新知识无法快速地在原知识源上更新;另一个是不同的机构由于发布目的不同,导致所发布的知识源通常仅包含某些特定维度的知识。

3.知识复杂。医学是经验性总结的科学,主要分为基础医学、临床医学以及预防医学三大类学科。三大类学科各自分工研究复杂的人体问题,相应的知识也是复杂多变。单从医学概念上就能看出医学知识的复杂性,一个医学概念往往存在多个上位概念和下位概念。以肺炎为例,肺炎不仅有肺组织炎症和肺实变两个上位概念,还有新生儿肺炎、间质性肺炎和支气管肺炎等多个下位概念,如下图所示。

肺炎的多个上位概念和下位概念

将复杂的医学知识完整的、清晰地表达出来,可以使计算机在辅助人类开展医疗活动过程中显得更加智能,让用户获得更加全面的医学知识。

4.质量参差不齐。众多的医学知识来源势必会导致知识质量参差不齐。临床路径、临床指南和医学教科书等资源的权威性较高,且临床指南会标识证据等级,相应的医学知识质量高、可信度高。一些互联网开放平台上的知识由于维护者身份和审核等原因,其权威性通常有争议。

以上这些特点也一定程度上加大了医学知识图谱构建、应用的难度在此背景下,OMAHA以满足行业内对数字化医学知识的底层共性需求为切入点,自主构建中文医学知识图谱——“汇知”医学知识图谱(简称“汇知”图谱)。围绕疾病、药品、检验检查、手术操作四大领域,选取临床指南、临床路径、医学教材、药品说明书和中国药典等权威、高质量的医学知识作为知识源,采用“机器+人工”的方式抽取基础医学知识形成高质量的知识图谱,为精准的医学知识智能化和应用提供基础。

目前,汇知”图谱已发布疾病知识图谱和药品知识图谱,共计约12万实体,96万三元组。

疾病知识图谱

疾病知识图谱以疾病为中心,主要构建疾病与检验检查、手术操作和药品之间的关系。疾病知识图谱共建立心血管系统疾病、神经系统疾病、消化系统疾病等17个疾病细分领域知识图谱,描述疾病的临床表现、科室、相关检查、治疗方式、症状、治疗药物、并发症等110+关系,为人工智能技术在不同疾病领域的辅助诊疗、风险预测等场景应用提供更全面的知识支撑。累计发布7.5万实体,37.0万三元组,其中53%的实体与“七巧板”医学术语集建立了映射。

药品知识图谱

药品知识图谱以药品为中心,构建药品与疾病、检验检查、手术操作之间的关系。截至目前,药品知识图谱覆盖3.0万种药品(通用名),累计发布4.5万实体,60.0万三元组,其中56%的实体与“七巧板”医学术语集建立了映射。已发布关系类型包括医保支付类型、剂型、适应证、适用人群、禁忌证、禁忌人群等。

“汇知”医学知识图谱已在HiTA知识服务平台(hita.omaha.org.cn)面向OMAHA会员服务机构用户开放下载数据包,如果您还不是OMAHA会员服务机构用户,可在HiTA知识服务平台【OMAHA知识库-样例数据下载】界面下载样例数据进行了解。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

图谱实战 | 为什么我们需要医学知识图谱?相关推荐

  1. 图谱实战 | 百度基于异构互联知识图谱的多模内容创作技术

    分享嘉宾:卞东海 百度 高级研发工程师 编辑整理:蒋郭鑫 河海大学 出品平台:DataFunTalk 导读:由于大数据时代的发展,知识呈指数级增长,而知识图谱技术又在近年来逐步火热,因此诞生了利用知识 ...

  2. 知识图谱实战:构建红楼梦知识图谱

    本文为数据集整理以及代码存放,本内容已经录制b站课程,如有需要可以前去观看,建议点赞投币- 视频内容简介,最后可以带大家确实做一个知识图谱 b站课程地址:https://www.bilibili.co ...

  3. 图谱实战 | 阿里新零售多模态知识图谱AliMe MKG的建设与应用

    转载公众号 | DataFunSummit 分享嘉宾:陈河宏 阿里巴巴 算法工程师 编辑整理:李开琦 SHEIN 出品平台:DataFunTalk 导读:随着知识图谱技术的发展,其在电商.医疗.金融等 ...

  4. 图谱实战 | OPPO自研大规模知识图谱及其在小布助手中的应用

    分享嘉宾:李向林 OPPO 编辑整理:吴祺尧 加州大学圣地亚哥分校 出品平台:DataFunTalk 导读:OPPO知识图谱是OPPO数智工程系统小布助手团队主导.多团队协作建设的自研大规模通用知识图 ...

  5. 图谱实战 | 徐美兰:深度应用驱动的医学知识图谱构建

    转载公众号 | DataFunSummit 分享嘉宾:徐美兰 浙江数字医疗卫生技术研究院 数字医学知识中心主任 编辑整理:李杰 京东 出品平台:DataFunTalk 导读:数研院这些年在知识图谱建设 ...

  6. 图谱实战 | 深度应用驱动的医学知识图谱构建

    分享嘉宾:徐美兰 浙江数字医疗卫生技术研究院 数字医学知识中心主任 编辑整理:李杰 京东 出品平台:DataFunTalk 导读:数研院这些年在知识图谱建设上取得了丰硕成果,今天我们将图谱构建过程中的 ...

  7. 虚拟专题:知识图谱 | 医学知识图谱构建关键技术及研究进展

    来源:<大数据> 医学知识图谱构建关键技术及研究进展 谭玲1, 鄂海红1, 匡泽民2, 宋美娜1, 刘毓1, 陈正宇1, 谢晓璇1, 李峻迪1, 范家伟1, 王晴川1, 康霄阳1 1 北京 ...

  8. 图谱实战 | 医学知识图谱的价值与应用场景

    转载公众号 | OMAHA联盟 随着技术的进步和市场的逐渐成熟,人工智能在医疗等领域的应用日益广泛和深入.而知识图谱技术作为一种从海量文本和图像中抽取结构化知识的手段,正在成为推动人工智能发展的核心驱 ...

  9. 领域应用 | ​英文抗生素药物医学知识图谱 IASO1.0 版发布 线上试用正式启动

    本文转载自公众号:PKU自然语言处理前沿. 近日,由北京大学互联网信息工程研发中心(CIRE)开发的英语医学知识图谱英文抗生素药物医学知识图谱IASO1.0发布,面向公众正式开放试用.IASO是利用自 ...

最新文章

  1. GARFIELD@01-16-2005
  2. 利用CSS变量实现炫酷的悬浮效果
  3. C++开发WPF,Step by Step
  4. Linux文件系统中的链接
  5. java用栈处理四则运算_Java 用栈处理四则运算
  6. 苹果公司计划在俄勒冈州建设其第三个数据中心
  7. html基本标签练习
  8. HTML img 标签的 alt 属性
  9. 如何下载csdn的文章并保存成pdf格式呢?并实现某个博主的全部博文下载?
  10. 计算机硬件设备税率,软件产品增值税即征即退税额的计算
  11. python3 字典_Python3字典
  12. ABC类IP地址划分_wuli大世界_新浪博客
  13. Gentoo Linux+KDE Plasma桌面安装教程
  14. db2 dec函数oracle,DB2常用函数与Oracle有什么区别?
  15. 南大 东大 计算机谁厉害,南京这两所985高校号称“双姝”:南大文理强势,东大工科超群...
  16. windbg符号下载
  17. 百度贴吧五年内流失九成用户;罗永浩吐槽苹果新品:更丑更贵更胡来;进互联网大厂毕业生5年后7成人离开 | EA周报...
  18. 纵观无盘系统发展历史
  19. 将KITTI数据集的odometry部分velodyne的bin文件转换成rosbag
  20. 《深入浅出RxJS》读书笔记

热门文章

  1. 在Echarts的barChart中,xAxis的标签如何不重叠显示?
  2. WinSCP连接Linux
  3. 关于Qt翻译在Vs编辑器上面出现乱码问题
  4. 通达信除权除息(tdx gbbq)导出为文本文件
  5. verilog中>>>和>>的区别
  6. 服务器许可证密钥,如何生成和验证软件许可证密钥?
  7. R语言读取 xlsx 和xls 文件
  8. Nginx + VFP FastCGI开发说明
  9. 冒泡排序C语言实现 - 源码详解
  10. linux如何用命令寻找环境变量?