点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

医学领域经常存在样本短缺或数据缺陷的问题,在医学领域数据层面造成严重干扰。鉴于临床报告因登记过程的数据遗漏,诊断报告数据缺失问题会造成现有方法推理无效。尽管现有方法在解决数据不精确方面取得了进展,但几乎所有这些方法都无法接受缺失数据输入。缓解数据缺失问题的一种常见策略是用人造数据对缺失值进行填充。然而,数据填充策略在实际上会引入原始数据中并不存在的额外噪声。为回避数据填充带来的噪声污染,本报告展示一种数据缺失容忍性的语义知识泛化推理模型,在构建智能诊断算法时引入了开放世界假设,将临床超声报告中的缺失数据视为尚未观察的事实。该方法基于编码器-解码器的框架设计,其中编码器通过图谱嵌入而获得图谱结构信息,解码器通过推断患者与临床结果的关联而进行泛化推理诊断。对数据缺失场景,所提出方法对数据缺失表现出更好的容忍性。

本期AI TIME PhD 直播间我们邀请到西北工业大学副教授——习佳宁,为我们带来报告分享《容忍数据缺失的临床超声报告知识图谱乳腺癌诊断》。

习佳宁

西北工业大学副教授,2009年保送至中国科学技术大学(全国中学物理竞赛奖,免高考)并于2013年获学士学位,随后推免至中国科学技术大学硕博连读,并于2018年获博士学位。2018年至2019年于西安电子科技大学任职讲师,2019年9月起西北工业大学从事博士后,并于2021年7月晋升副教授。曾获国家奖学金、研究生国家奖学金、安徽省普通高等学校品学兼优毕业生等多项荣誉奖励。于2014-2015年担任IEEE国际电气电子工程师协会学生分会主席。2020年荣获西安市自然科学优秀学术论文奖(排名第一)科研奖励。目前主持NSFC青年科学基金项目1项,主持博士后面上项目1项。担任国际SCI期刊Frontiers in Genetics、Mathematical Biosciences and Engineering客座编辑,还担任国际期刊Bioinformatics、Zoological Research、Genomics, Proteomics & Bioinformatics等SCI期刊审稿人,还担任CVPR、ICCV、BIBM、ICME等国际会议审稿人。已发表学术论文26篇,其中本人第一作者发表14篇,通讯作者3篇,包括SIGKDD(知识挖掘顶级国际会议,CCF A类)、Bioinformatics(生物信息学国际顶刊,本人一作)、TCBB(生物信息学国际权威期刊)等。

01

 背   景 

对于人工智能辅助诊断模型来说,医学超声图像相比于更加标准化的CT图像或者磁共振(MRI)图像,其成像效果与医生的检查手法密切相关。在相同场景下,医生的手法动作稍有差别,便会导致成像结果的图像存在差异。因此,相比于CT和MRI给出的标准化横截面来说(下图左),医学超声成像是一个非标准化的过程,所给出的图像也存在较大差异(下图中右)。但对于人工智能模型而言,非标准化的输入会使得模型构建存在困难,因此需将非标准化的超声图像转换成标准化输入格式。

关于乳腺超声图像的标准化表述,目前已经存在BI-RADS(Breast Imaging Reporting and Data System)国际标准,该表征可有效描述图片所含的常见语义,比如形状、存在毛刺、是否钙化等。通过使用BI-RADS,可将非标准化的乳腺超声图像转换成标准化的医学报告。进而,将医学超声的BI-RADS语义特征作为标准的输入,可有效缓解数据非标准化对智能辅助诊断系统的负面影响。

具体而言,乳腺癌BI-RADS报告示例如下图所示,其报告内容由医生根据超声图像分别填写其相关BI-RADS语义特征。然而在实际临床场景中,超声图像中的一些特征往往难以分辨,而医生无法判断具体属性,从而造成报告的部分BI-RADS特征未观察或者未填写,最终导致报告语义特征存在数据缺失。

然而,由于目前的机器学习和模糊推理算法主要针对数据不精确,因此无法处理数据缺失问题。如果存在数据缺失,这些现有方法则难以计算向量距离或相似性,因而无法进行后续推理。当然,目前也存在一些通过人工填充数据的方式来缓解数据缺失,比如填充零或众数,但由于无法确保所填充的内容和缺失真实情况一致,因而又会引入额外的人工噪声。

为回避数据填充带来的噪声影响,本文工作引入了开放世界假设,即允许未观察的数据存在,将缺失数据就作为未观察的数据,而不是零值或者其他填充值。本工作中,我们不再采用传统的样本x特征的矩阵存储方式来表征BI-RADS报告特征(如下图a),而是采用使用知识图谱(Knowledge Graph,KG)来表征超声数据的BI-RADS报告特征。其中知识图谱由三元组事实构成,这里的三元组事实可以通俗理解为类似(主,谓,宾)形式(如下图b),通过KG embedding(知识图谱嵌入)来获得图谱的点和边所映射低维空间后的表征向量,这些向量关于已存在三元组可表现出较高的重建分数,但对未知三元组的重建分数并非较低,而是不强制其高低,这种方式可有效回避缺失的三元组。如果数据缺失,只需在知识图谱中不设置相应实体和关系的连接即可,如下图c所示。

02

 方   法 

本文提出KGSeD(KG based Structural embedding Diagnosis)方法,来完成数据缺失情况下根据超声检测数据进行乳腺癌诊断任务。下面是KGSeD的总体框架,包括编码器和解码器两个部分。首先在编码器阶段,采用关系图卷积网络(Relational Graph Convolutional Network,R-GCN),将知识图谱中的结构信息转换为嵌入低维向量,即通过KG嵌入(KG embedding)将图谱结构信息转化为潜向量。通过潜向量的双线性函数反应图谱重建得分构建解码器,并以待测样本实体和良/恶性实体之间关联的连接重建,预测乳腺癌是良性还是恶性,从而实现病患的计算机辅助诊断。

下面详细介绍一下编码器和解码器两个部分。下图中malignant节点表示恶性,benign节点表示良性,图谱中的病患样本实体与良恶性两实体存在连接关系则为已知病患的良恶性情况。由于知识图谱存在不同类型的边,因此编码器采用关系图卷积网络(R-GCN),图中用不同颜色的圆点来表示。具体而言,R-GCN会把不同类型的边抽取出来,每种类型的边都会对应一组邻居节点,进而为这些邻居节点赋予向量,网络通过多次迭代,这些邻居节点的向量可以近似预测当前节点向量,从而可以实现原始图谱的近似恢复。此外,由于每个关系都会由一个权重向量,随着关系的累积,权重参数越来越多,因此增加了低秩正则化来防止过拟合。

在解码器部分,通过已经得到了实体/关系的潜向量,对原始图谱进行近似恢复。这里采用一个运算量较小的经典方法DistMult。前面讲到知识图谱中的三元组分为三个部分:主语,谓语,宾语。DistMult设定主语、谓语、宾语三个向量维度相同,然后将三个向量的每个维度对应的元素相乘后相加,具体操作会把第一个向量转换为行向量,第二个转换为对角矩阵,第三个转换为列向量,三者相乘可以获得重建分数,分数数值越大则认为三元组存在的可能性越高。随后经过sigmoid激活函数,将邻边预测结果值转换为一个概率。样本点与良性和恶性都会有相应概率,概率更大的结果则为最终预测结果。

在模型迭代优化时,采用已知链路和所预测链路的交叉熵作为损失函数,采用Adam优化器进行优化,将解码器的重建损失作为反馈,从而实现编码器和解码器共同训练,最终得到的诊断模型。

03

 实  验

数据集:

由中山大学肿瘤防治中心收集的数据,共1488例,其中401例良性,1087例恶性。数据集标注由三位5年以上经验的超声科医生完成,我们通过方差分析选择了18个特征进行实验。

Baseline与评估指标:

实验结果:

下面是本文方法(KGSeD)与其他基准方法的5哲交叉验证对比,本文方法的从准确率与F1得分方面均在此数据集取得最优性能。

下面是本文方法KGSeD与其他基准方法在数据缺失情况下性能对比实验,本文方法在不同缺失率情况下均取得最优性能。

下面是在不同的数据缺失率下,各种方法的相对性能下降柱状图,本文方法KGSeD在各个缺失率下的性能下降的都比较小,体现了较强的数据缺失容忍性。

04

 总  结

本文所提出的容忍数据缺失临床超声报告知识图谱乳腺癌诊断方法,通过开放世界假设有效回避了数据缺失问题,通过基于关系图卷积网络的编码解码框架实现了数据缺失情况的诊断推理,实验结果表明本文方法对数据缺失具有更强的容忍性,更适合应用于真实临床场景。

论文链接:

https://dl.acm.org/doi/10.1145/3447548.3467106

点击“阅读原文”,即可观看本场回放

整理:爱 国

审核:习佳宁

直播预告

往期精彩文章推荐

记得关注我们呀!每天都有新知识!

关于AI TIME

2019年,清华大学人工智能研究院院长张钹院士、唐杰教授和李涓子教授等人联合发起“AI TIME science debate”,希望用辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者创办的圈子。AI TIME旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家与爱好者,打造成为全球AI交流与知识分享的聚集地。

我知道你

在看

~

点击 阅读原文 查看回放!

干货!容忍数据缺失的临床超声报告知识图谱乳腺癌诊断相关推荐

  1. 结构化数据抽取成三元组_干货丨AI在数据防泄漏中的应用——知识图谱之知识抽取...

    随着技术的不断发展,AI(Artificial Intelligence,人工智能)逐渐在社会经济发展的方方面面深入,成为信息化时代最重要的支柱技术之一. 在数据安全领域领域,AI技术所能起到的作用越 ...

  2. 干货丨一文看懂什么是知识图谱!

    来源: THU数据派 概要:在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库. 什么是知识图谱? 在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识 ...

  3. 基于Python+Neo4j+民航数据 ,我搭建了一个知识图谱的自动问答系统

    最近耗时一周,我基于Python+Neo4j ,搭建了一个民航业知识图谱的自动问答系统. 文章目录 环境 运行 1.项目结构 2.数据组织 3.问题预处理 4.问题分类 5.Web APP 源码&am ...

  4. 领域应用 | 2020 年中国知识图谱行业分析报告

    本文转载自公众号:艾瑞咨询. 核心摘要: 人工智能本质是解决生产力升级的问题,人类生产力可以归类为知识生产力和劳动生产力,人工智能走入产业后,可以分为感知智能.认知智能和行为智能,后两者更与生产力相对 ...

  5. 文因互联鲍捷:深度解析知识图谱发展关键阶段及技术脉络 | 干货推荐

    分享嘉宾 | 鲍捷(文因互联CEO) 出品 | AI科技大本营(公众号ID:rgznai100) 知识图谱是人工智能三大分支之一--符号主义--在新时期主要的落地技术方式.该技术虽然在 2012 年才 ...

  6. 把知识变成图谱一共需要花几步?89页全网最全清华知识图谱报告-学习笔记

    把知识变成图谱一共需要花几步?89页全网最全清华知识图谱报告 知识图谱是人工智能的重要分支技术,它在2012年由谷歌提出,成为建立大规模知识的杀手锏应用,在搜索.自然语言处理.智能助手.电子商务等领域 ...

  7. 领域应用 | HiTA知识图谱 “药品-适应证”图谱数据发布!

    本文转载自公众号:OMAHA联盟. 2019年8月,OMAHA对HiTA知识图谱服务平台(kg.omaha.org.cn)进行了更新,同步发布了医学知识图谱表达模型(schema).2019年9月17 ...

  8. 肖仰华谈知识图谱:知识将比数据更重要,得知识者得天下

    肖仰华谈知识图谱:知识将比数据更重要,得知识者得天下 https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247498869& ...

  9. 知识图谱学习|报告总结|肖仰华: 知识图谱下半场-机遇与挑战

    文章目录 知识图谱的上半场:主要成果 知识图谱的发展介绍 知识工程 传统知识工程 大数据知识工程 实现 解决问题 知识图谱的下半场:机遇与挑战 为什么 趋势 机遇 应对 知识表示 知识获取 知识应用 ...

最新文章

  1. thinkphp mysql 预处理_thinkPHP框架中执行原生SQL语句的方法
  2. 分享几个Java面试小技巧,建议收藏!
  3. ios view 切上部分圆角_ios – 具有圆角的UIView:如何正确剪辑子视图?
  4. iview render的时候可以写控件的基本格式
  5. 水晶报表-控制结构-For 循环(Crystal 语法)
  6. java中servlet知识_jsp_Servlet常用知识总结
  7. Qt文档阅读笔记-Object Model
  8. 关于在群集环境下UDDI Web应用程序组件配置失败问题
  9. linux内核锁死怎么解决_解决Linux内核中的2038年问题
  10. KBQA相关论文分类整理
  11. 诊所系统php,诊所管理系统
  12. Spring学记笔记
  13. 比较两组数据的差异用什么图更直观_用Excel制作旋风图
  14. 《iPad开发从入门到精通》——6.6节系统设置
  15. windows和linux之间的共享目录,实现Windows和Linux之间的文件共享
  16. 访问网络内不同ip段的计算机,[转]问题:话说两台电脑在一个局域网内,把它们的IP地址都设成不同的网段,请问,它们可不可以通讯?如...
  17. 免签出国,我们这些懒人的长假有救了
  18. Windows重启显卡驱动热键说明
  19. h5新增标签属性以及api
  20. Windows记事本

热门文章

  1. 软件测试方法—动态测试
  2. 经典题:用Java打印空心菱形
  3. 卷积神经网络(CNN)详细介绍及其原理详解
  4. 华为p10自带计算机,华为P10评测:EMUI 5.1越用越快、总结
  5. Glide-通过Modules定制Glide
  6. github 本地 fatal: couldn‘t find remote ref master错误解决方案
  7. 修改HTK代码,让其支持中文
  8. 语音识别之HTK入门(四)——HCompV源码解析
  9. Cocos2dx 之 cocosbuilder的使用
  10. java计算机毕业设计公益诊疗系统源程序+mysql+系统+lw文档+远程调试