摘要

      背景:虽然人工智能(AI)在放射学的许多方面都显示出很好的前景,但在脑MRI中使用人工智能来进行罕见和常见疾病的鉴别诊断(differential diagnoses)尚未得到证明。
      目的:通过与放射科医生的比较,评价一种用于脑MRI鉴别诊断的人工智能系统。
      材料和方法:这项回顾性研究测试了2008年1月至2018年1月期间,利用脑MRI诊断的19种常见和罕见病的患者中,AI系统用于概率诊断的性能。AI系统结合了数据驱动和领域专业知识方法,包括深度学习和贝叶斯网络(Bayesian networks)。首先,使用深度学习检测病灶。在此基础上,采用基于图谱的配准和分割方法提取了18个定量成像特征。第三,利用贝叶斯推理将这些影像特征与五个临床特征相结合,进行基于概率的分级鉴别诊断。在一个有86名患者的训练集(平均年龄49±16岁[标准差];其中有53名女性)上,定量特征提取算法和条件概率进行了微调。通过对一个有92名患者的独立测试集 (平均年龄47±18岁;其中有52名女性)进行诊断,将鉴别诊断算法概率为前三的判别与放射科住院医生、普通放射科医生、神经放射科研究员和学术神经放射科医生的诊断结果进行对比。

      结果:人工智能系统(91%正确)概率为前三的诊断的表现与学术神经放射科医生(86%;P=.20)相似,但优于放射科住院医师(56%;P=.001)、普通放射科医生(57%;P,.001)和神经放射学研究员(77%;P=.003)。人工智能系统的性能不受疾病流行的影响(普通疾病的准确率为93%,罕见疾病的准确率为85%;P=.26)。放射科医生诊断普通疾病比罕见疾病更准确(78%对47%,P<0.001)。
       结论:脑MRI的AI系统对于大脑疾病的鉴别诊断总体上接近神经放射科医生的位列前三的鉴别诊断准确率,并超过了专业程度较低的放射科医生的诊断准确率。

人工智能(AI)显示出了改变医疗卫生和医学影像的巨大潜力,其中深度学习是影响最大的AI工具(1,2)。深度学习在神经放射学中许多成功实现都是为了提取发现(extracting findings),如头部CT图像中的出血等(3-5)。尽管被证明有用,一个完整的诊断系统必须适用于罕见疾病的诊断。尽管可用于训练的案例很少,但必须可区分大量诊断,并提供直接访问用于得出诊断的中间特征(intermediate features)的途径。

此外,在像放射学这样一个固有的概率性领域,具有相关疾病概率的鉴别诊断,而不是单一的最佳诊断输出,是指导管理的关键(6,7)。贝叶斯推理(8)提供了可以直接进行疾病几率计算的机会,考虑到图像和临床特征以及罕见和常见疾病的基线概率,可以直接提供这种计算。信息系统是一项非专业人员和深度学习都不能胜任的任务。

由于不同AI方法的互补性,我们试图开发一种系统,通过使用一组AI工具,对放射科医生用于MRI解释的三个连续步骤进行计算建模。首先,系统采用深度学习的方法检测图像异常,通过大量的实例训练,模拟放射科实习医师学习识别异常图像的过程。第二,它通过现有的MRI序列,利用定量输出的图像处理对异常进行表征,类似于放射科医生明确描述影像特征或发现。最后,使用贝叶斯推理将这些基于AI的图像特征与临床特征整合成一个概率性的鉴别诊断,就像放射科医生基于知识将成像特征与某些诊断相关联一样,通过贝叶斯推理将影像特征与某些诊断相关联。

虽然这个过程的第一步,图像异常检测,是纯数据驱动的(即从训练数据中学习),但第三步是由专家导出(expert-derived)条件概率的形式,明确地从领域专业知识中获得信息。也就是说,一个提取图像特征的系统,从概率上区分出感兴趣的诊断,不需要额外的训练数据来推导出鉴别诊断。相反,训练数据的需要可以由专家知识来代替,这些图像特征的概率给定每个诊断的概率。为了验证这样一个复合的数据驱动和领域专家知识的自动化系统的输出,我们将其诊断性能与不同专业水平的放射科医生进行了比较。我们假设该AI系统在诊断方面的表现可以达到学术神经放射科医生的水平,我们以19种影响大脑半球的常见和罕见的疾病为重点进行了概念验证。

 

材料和方法

这项符合《健康保险可移植性和责任法案》的回顾性研究获得了我们的机构审查委员会的批准,并豁免了书面知情同意书。非雇员或非咨询作者(A.M.R.、J.D.R.、J.W.、L.X和M.T.D.)对数据进行分析和控制。
病人和疾病
    共有178名研究患者(其中有105名女性;平均年龄48±17岁[标准差]),每个患者有一个匿名的脑MRI数据,是在2008年1月至2018年1月期间获得的。根据图1和附录E1(在线)中详述的程序,研究数据从我院的图片存档和通信系统中获得(表1)。

图1. 流程图显示了根据排除标准进行的研究选择(从最初的患者搜索到训练集和测试集的随机化)。FLAIR = 流体衰减反转恢复,IRB = 机构审查委员会。

表1:受试者人口统计学信息及临床特征

      注:-患病率等级(prevalence ratings)是由两位神经放射科医生协商一致确定。免疫状况(immune status)是根据预先定义的条件或在患者进行MRI扫描时所进行的药物治疗的清单来确定的:人类免疫缺陷病毒(HIV)阳性(不论目前的CD4计数如何)、硫唑嘌呤、纳他利珠单抗、纳他利珠单抗、富马酸二甲酯、芬戈莫德、奥克立珠单抗、目前的化疗药物(包括甲氨蝶呤内酯)、器官移植后的免疫抑制疗法、近期(<2周)的任何类型的放疗。如果患者的电子病历中有任何临床记录提到:在促使进行MRI检查的神经系统症状出现前2周内,患者有病毒性疾病(呼吸道、溃疡性或胃肠道)病史,则认为存在病毒前驱症状(Viral Prodrome)。对于慢性(Chronicity),急性(acute)被定义为MRI检查7天内出现的神经系统症状;慢性(Chronic) 被定义为MRI检查前持续7天以上的神经系统症状。如果患者在MRI检查前没有出现神经系统症状(如常规癌症筛查检查时的偶然发现),则其慢性被编码为无(N/A)。

ADEM=急性播散性脑脊髓炎,ALD=肾上腺白质性脑病,CADASIL=大脑常染色体显性动脉病变伴皮层下梗塞和白质性脑病,CNS=中枢神经系统,MS=多发性硬化,NMO=视神经髓炎,PML=进行性多灶性白质性脑病,PRES=后可逆性脑病综合征,SVID=小血管缺血性疾病

诊断包括19种疾病,涵盖了大量的常见和罕见的疾病,包括引起流体衰减反转恢复(FLAIR)异常的常见和罕见的疾病,重点是主要影响大脑半球的疾病(图2)。诊断结果被选择为包含相当大的影像学重叠,使得明确的诊断鉴别变得困难或不可能,从而需要鉴别诊断(differential diagnoses)(类似于标准的神经放射学实践)。
    除了影像学数据,还从每个患者的图表中提取了五个临床特征:年龄、性别、免疫状况、是否存在病毒前驱症状和临床症状的慢性化(表1)。

图2:图像显示了纳入研究的19种神经系统疾病中的每一种神经系统疾病的轴向流体反转恢复(FLAIR)切片示例。ADEM=急性播散性脑脊髓炎,CADASIL=脑常染色体显性动脉病伴皮层下梗塞和白质脑病,CNS=原发性中枢神经系统,HIV=人类免疫缺陷病毒,MS=多发性硬化症,NMO=神经性视神经髓炎,PML=进行性多灶性白质脑病,PRES=后可逆性脑病综合征。重复时间和回声时间值范围见表2。

影像学数据

研究分为训练集(n = 86)和测试集(n = 92)。以前用于训练卷积神经网络的训练数据(见下文)与这里描述的86个训练研究重叠,但不与测试研究重叠。这86个病例的训练集被用来更新AI系统参数(具体来说,即为关键特征提取的阈值[见“病变特征”部分]和条件概率[见“用于鉴别诊断的贝叶斯推理”部分])。测试集被保留下来进行独立测试。因为没有进行超参数优化,所以不需要单独的验证集。测试数据集包括从研究队列中随机选择的每种疾病的5个实例,但Susac综合征除外,由于其罕见性,我们只发现了2个患者。其余的形成了训练集(表1)。成像数据来自于20多个不同的物理MRI扫描仪(16个扫描仪模型跨多个位置)的各种成像参数(表2),这是典型的临床成像数据。从MR图像中提取的序列包括T1加权、T1增强后、T2加权、FLAIR、扩散加权、表观扩散系数、梯度回波或磁化率加权成像。如果一个序列(如T1后增强后)对患者不可用,则AI算法和放射科医生在没有该序列的情况下提供诊断。特定的脉冲序列具有高度异质性,仅FLAIR序列就有30多个(随回波时间、重复时间、平面内分辨率和切片厚度而变化)(表2)。

深度学习在病变检测中的应用

该AI系统由三个独立的组件组成(图3)。首先,图像预处理后(见附录E1[online]),使用我们先前开发的三维U-Net架构的卷积神经网络(9)(图3,A),基于FLAIR序列检测颅内病变。使用相同架构和训练集的两个单独训练的三维U-Nets也被应用到我们的数据,用于检测病理T1信号(10)和异常梯度回波或磁化率加权成像信号(11)。

图3. 人工智能(AI)系统概述。

A.用于异常信号检测的三维U-Net架构。

B.利用图像处理自动提取特征。除梯度回波(GRE)易感性检测外,其余均来自原发性中枢神经系统淋巴瘤患者。有关如何提取每个特征的详细信息,请参见材料和方法部分。

C.对每个患者的每个病变都计算出多个定量特征,包括本例中所示的病变。这些特征被存储,提供了丰富的病变的定量描述。为了开发鉴别诊断,将阈值化的特征在贝叶斯网络中进行概率组合。

D.贝叶斯网络示意图,展示了AI系统的朴素贝叶斯结构,具有用于区分大脑半球疾病的完整特征集,分为临床、信号、空间和体积四类。ADC=表观扩散系数,ANTs=高级归一化工具,CC=胼胝体,DWI=弥散加权成像,FLAIR=流体衰减反转恢复,vol=体积。

病变特征

图像处理是通过使用内部修改的开源高级标准化工具软件包(版本2.1;https://github.com/ANTsX/ANTs)(12,13)(详见附录E1[online])实现的。FLAIR U-Net的病变mask叠加到每个MRI序列,利用提取的组织分割及标准模板来提取每个被试的18个感兴趣的特征(图3,B和C)。提取定量图像特征(例如以立方毫米为单位的病灶体积),然后对其进行阈值处理,以获得定性特征状态(例如,大、中、小病灶)。阈值由专家知识设定,并利用86个训练数据的训练结果更新阈值。附录E1(online)中提供了所有18个被提取的信号(n = 5),体积(n = 6),空间(n = 7)定量特征,以及5个临床特征的详细描述。

贝叶斯推理在鉴别诊断中的应用

对于每个患者,18个影像学特征加上5个临床特征,通过使用朴素贝叶斯推断法(可查阅https://github.com/rauscheck/radai)计算出每个可能的诊断概率(图3,D)。贝叶斯条件概率是利用领域的专业知识来确定的,使用综合神经放射学教科书(14)和现有文献(15-19)中发表的统计学方法,另外,两位神经放射学专家(A.M.R.,神经放射学研究员,和S.M.,有12年的研究员经验)也就此达成了共识。这个过程的目标是将专家们对特征和疾病之间的概率映射的知识进行封装。将专家推导的概率与对86个训练数据进行训练所得的特定疾病频率特征状态进行加权平均,概率映射随后被调整为近似于此加权平均概率。

与放射科医生表现的对比

为了比较AI系统与放射科医生的表现,测试数据被匿名并独立呈现给4名放射科住院医师(2名两年和2名四年住院医师)、2名神经放射科研究员(各接受过9个月的研究员培训)、2名普通放射科医生(他们经常阅读脑MR图像;1名进行过神经放射科研究员培训;分别有20年和21年的培训后经验)、2名我院三级医疗中心的学术神经放射科主治医师(I.M.N.和S.M, 分别具有7年和12年的培训后经验),使用我院图像存档和通信系统中的标准挂片协议(a standard hanging protocol)。放射科医生得到了与AI系统相同的MRI序列和临床特征。他们被告知诊断结果在患者中的平均分布。在19种可能的诊断中,放射科医生提供了他们最有可能的三种诊断(“判别诊断”)。

统计分析

为了在考虑数据的成对性的同时将AI系统与放射科医生进行对比,我们使用了一个具有鲁棒的方差估计器(robust variance estimator)的通用估计方程(generalized estimating equation),以与AI系统精度比较的比值比(OR)表示为基线,比较三个独立的结果指标:鉴别诊断概率第三的正确诊断、鉴别诊断概率第二的正确诊断、鉴别诊断概率第一的正确诊断。在此模型中指定了放射科医生的类别(主治医师、住院医师、普通放射科医生、住院医师和AI系统),独立阅片医师被分配在他们各自的类别中。采用McNemar检验对AI系统与放射科医生进行比较。通过使用在判别诊断中的位置来创建四个置信水平的顺序标尺,构建受试者工作特征曲线,作为第1名、第2名和第3名的差异化诊断性能的总结性衡量,并引导计算出受试者工作特征曲线(AUCs)下95%置信区间(CI)的面积。根据疾病发生率,

Radiology:人工智能系统脑MRI鉴别诊断精度接近神经放射科医生水平相关推荐

  1. 工业人工智能系统框架、关键技术、典型应用与发展趋势

    来源:原文刊载于<机床与液压>2022年5月  作者:唐露新 张儒锋 姜德志 林建文 周书兴 近年来,智能制造是很多工业发达国家积极推进和重点发展的领域,美国.欧洲和日本等都将目光转向人工 ...

  2. Michael I. Jordan联合UC伯克利13位重量级学者:下一代人工智能系统的4大趋势和9大研究课题

    Michael I. Jordan 简介: LDA作者,机器学习泰斗,美国科学院/工程院/艺术科学院三院院士,ACM/AAAI Fellow,认知科学最高奖Rumelhart Prize得主,美国人工 ...

  3. TUD研究人员开发的植入式人工智能系统可以进行疾病的早期检测和治疗

    人工智能(AI)将从根本上改变医学和医疗保健:在机器学习的帮助下,可以分析心电图.脑电图或X射线图像等患者诊断数据,从而在很早的阶段根据细微变化就检测出疾病. 德累斯顿工业大学(Dresden Uni ...

  4. python基于svm项目+课程设计报告_基于机器学习的脑电病理诊断

    是新朋友吗?记得先点蓝字关注我哦- (图片来自于网络) 1 引言 将机器学习方法应用于脑电信号的自动分析,特别是在基于脑电信号的临床诊断领域,因其巨大的应用前景而引起了广泛的兴趣.例如,它是检测和预测 ...

  5. 我们为什么不能只相信建立在深度学习基础上的人工智能系统

    来源:简书 本文摘自: https://www.jianshu.com/p/55e1abcd896d Gary Marcus介绍了如何实现通用智能以及为什么通用智能可能会让机器更安全. 加里•马库斯( ...

  6. 零售业将成人工智能系统支出额最高的行业

    来源:人工智能和大数据 概要:预计2017年零售业和银行业在认知和人工智能系统方面的支出最高,分别达到17.4亿美元和17.2亿美元. 根据IDC<全球半年度认知/人工智能系统支出指南>最 ...

  7. Yann LeCun最新访谈:能量模型是通向自主人工智能系统的起点

    来源:ZDNet 编译:钱磊 编辑:陈彩娴 继自监督学习之后,Yann LeCun 在接受 ZDNet 的最新访谈中又着重探讨了他在几年前曾大篇幅推崇的概念:「能量模型」(energy-based m ...

  8. IDC:今年全球认知和人工智能系统支出将突破125亿美元

    据IDC全球半年度认知人工智能系统支出指南的更新信息预测,2017年认知和人工智能(AI)系统的全球收入将达到125亿美元,相比2016年增加59.3%.未来五年,企业在认知和人工智能解决方案上的全球 ...

  9. AI System 人工智能系统 TVM深度学习编译器 DSL IR优化 计算图 编译 优化 内存内核调度优化 DAG 图优化 DFS TaiChi 函数注册机 Registry

    DSL 领域专用语言 TVM深度学习编译器 AI System 人工智能系统 参考项目 TaiChi 三维动画渲染物理仿真引擎DSL TVM 深度学习DSL 密集计算DSL LLVM 模块化编译器 编 ...

最新文章

  1. property、staticmethod、classmethod与__str__的用法
  2. wxWidgets:wxMenu/wxMenuBar 示例
  3. CodeDay 北京站报名倒计时
  4. MarshalByRefObject浅析
  5. mysql技术innodb存储引擎读后感_《Mysql技术内幕-InnoDB存储引擎》读书笔记 (一)...
  6. Java LocalDateTime类| 带示例的getDayOfWeek()方法
  7. 用AI说再见!“辣眼睛”的买家秀
  8. 记一次Task抛异常,调用线程处理而引发的一些随想
  9. 网络IO模型详细分析
  10. 直接请求接口_「软件测试教程」基于postman进行接口测试实战
  11. ES6学习笔记第一章
  12. WebService可以远程调试调用
  13. iOS 跨平台开发,该用 Flutter 还是 Swift?
  14. LintCode:A+B的和
  15. 多线程打印ABCD顺序(带有线程池实现)
  16. 计算机会计试题原型法的优缺点,《计算机会计学》1..doc
  17. 如何成功搭建一个游戏平台?
  18. JQuery实现表单验证(注册页面)
  19. DMSP/OLS夜间灯光数据——应用
  20. 互联网站规划与设计.txt

热门文章

  1. Fabric CA/数字证书管理
  2. c语言程序 存款利息的计算,【c语言】存款利息的计算
  3. 公众号榜单 | 2020·8月公众号原创排行榜重磅发布
  4. A Typical Homework (a.k.a Shi Xiong Bang Bang Mang) UVA - 12412
  5. 动作识别阅读笔记(三)《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》
  6. Vue中使用的el-upload开启multiple属性,但onSuccess部分数据status:uploading状态,影响图片回显
  7. cloudflare免费证书_久违的百度云加速免费版终于支持 HTTPS 了!
  8. 【NIO详解】基于NIO的client与server
  9. android 恢复照片误删,安卓手机数据恢复:红米手机照片误删怎么恢复
  10. matlab hello world,hello world