今天为大家介绍的是2020年6月谢菲尔德大学Laura Ferraiuolo教授课题组和BenevolentAI公司合作发表在Nature Reviews Neurology上的一篇有关神经退行性疾病诊断和治疗中的机器学习应用的综述。在这篇综述中,作者重点介绍了机器学习如何帮助人们早期诊断疾病、解释医学图像以及发现和开发新的疗法,有助于增进科学家们对疾病进程的了解。

1

介绍

近年来,机器学习算法在医学和科学研究中的应用得到了广泛的讨论。高维的疾病数据集通常是稀疏的、有噪声的、横截面的和缺乏统计能力的,这使得使用传统的数据分析方法(寻找单个变量的变化或执行简单的相关性)从这些数据中获得生物学见解变得极其困难。数据分析中的这些问题由于对理解疾病机制所必需的各种数据类型(例如,成像、基因组学和临床数据)的集成而进一步复杂化。为了应对这些挑战,先进的机器学习模型越来越多地应用于生物医学和医疗保健数据。

传统的计算机科学通过应用预定义的规则从输入数据中获得结果,而机器学习则直接从输入数据中学习规则和洞察力,从而允许应用这些规则在新的情况下从数据中做出预测。机器学习方法可以在最少变量的情况下通过减少分析的特征数量帮助克服高维数据的挑战。

2

机器学习方法

机器学习方法被广泛地分为监督、非监督和强化学习方法。

监督机器学习算法是目前最常用的方法,用于神经退行性疾病相关数据,并需要一个标记数据集从中学习。通常,这些标签需要人工管理或专家评估。一旦这个“基准”数据集被标记出来,机器学习算法就会建立一个输入特征和标签之间的关系模型。然后,该算法可以将该模型应用于新的未标记数据集,根据新的输入特征预测标签。监督机器学习分为分类算法和回归算法。分类算法,预测每个数据样本的分类输出。相比之下,回归算法为每个数据样本预测一个实值变量(例如,连续尺度上测量的功能损害程度)。当应用于医疗保健数据时,分类和回归算法都可以通过识别数据内的模式和相似的聚类区域来定义患者内型——疾病群体中具有相同功能和病理特征的一群个体。回归方法的一个实际例子是在模拟运动功能下降、疾病持续时间或进展斜率的算法基础上,将患者分型为进展内型,以形成进展时间序列的细微表征。

与有监督的机器学习相反,无监督机器学习算法不需要带标签的数据,并且对于将数据样本聚类成组,或者生成高度复杂的数据的更简单的表示来降低数据集的维度任务很有用。此外,无监督的聚类方法,如潜在变量模型,可以帮助识别基因的共同表达模块,这些模块是可能被共同调控或符合共同的生物机制或通路的一组基因。除了分析现有数据,无监督聚类算法也可以用来进行预测。

监督学习方法和无监督学习方法可以结合,形成半监督学习方法。半监督方法用额外的未标记数据丰富一小组标记数据,这使得聚类(非监督)方法可以提高分类(监督)方法的性能,并使用额外的数据规范化预测模型。同样,转导学习方法使用测试数据作为未标记数据来改进标准监督分类方法;这些方法不会导致数据泄漏,因为标签不是共享的,并且可以提高可用数据量低时的性能。

最后,在强化学习方法中奖励或惩罚,以实现预期的输出。在训练过程中,如果对一种新药产生负面反应或药物与药物的相互作用产生不良反应,就会对算法进行惩罚,而对一种能够改善病程的药物进行奖励,这是预期的结果。

3

模型选择

存在大量的机器学习算法,选择正确的算法来应用于特定类型的数据是很重要的。由于特别关注监督学习,有两个因素与选择正确的算法特别相关:模态(数据的形式)和容量(数据样本的数量)。在容量方面,对于样本特征比低 (SFR <10:1)的数据集,算法除了分类外还将努力学习一个有用的“特征化”。对于这样有限的数据集、高度受限或“正则化”的模型,如层次贝叶斯模型,通过学习数据的少数参数,简化了任务并指导算法。对于较大的数据集,通常使用支持向量机(SVM)或随机森林。这些方法比分层贝叶斯模型更灵活,但需要更大的数据量,而且更复杂。

人工神经网络,包括流行的深度神经网络,被广泛用于分析数据的许多模式,特别是图像、视频和声音数据。在预处理过程中,人工神经网络比支持向量机或随机森林需要更少的手工数据操作步骤,并且在某些情况下,将分类器的选择纳入网络架构。这些网络大多是监督的,但也可以是无监督的。CNN从人类视觉系统中汲取灵感,在越来越高的抽象层次上提取特征,首先结合局部信息,最终在图像中整合大规模信息。递归神经网络(RNN),可以从数据序列中提取信息,对分析临床记录特别有用。RNN模型如长短期记忆(LSTM)和门控递归单元构成了大多数序列任务中使用的构建块。这些模型包含一个允许算法学习长期依赖关系和门控单元的记忆单元,这些门控单元控制记忆内容的暴露和根据输入对记忆内容做出改变的程度。在选择机器学习模型时,需要减轻的一些关键技术风险包括数据量不足、数据表示不当、过拟合、不正确的超参数选择和数据缺失。

4

诊断及预知

在许多神经退行性疾病中,包括AD、PD和MND,症状只有在神经细胞大量丧失时才会出现,这使得早期诊断非常具有挑战性。因此,将机器学习模型应用于早期诊断的研究也在不断增长。

这项研究的目的是使用机器学习来检测数据中相对容易收集的预知信号(例如电子健康记录(EHRs)或MRI数据),从而使老年人群的前瞻性筛查成为可能。然后,机器学习驱动的自动诊断可以标记个人进行进一步的临床研究。这种方法需要机器学习模型足够敏感,能够发现早期疾病信号,并且足够具体,不会给卫生系统带来不必要的后续测试负担。目前,测试结果需要由训练有素的工作人员进行分析和解释,这可能导致诊断的延误。这些延迟可以通过对在诊所收集的数据应用机器学习方法来减少。通过比较具有相同内型或表型的患者的历史数据,这些相同的数据可以用于预测患者的情况。

4.1神经成像

CT和MRI等神经成像技术经常用于神经退行性疾病的诊断,而放射学是最早受益于医学计算机化和“智能机器”引入的领域之一。计算机辅助诊断系统可辅以监督学习技术,以进一步改善神经影像资料的解释,并帮助识别影像中未被放射科医师发现的细微异常。支持向量机被用于分析MRI数据,有时结合结构和功能MRI和认知评估数据来改善疾病诊断。

为了提高对神经退行性疾病及其进展的了解,作者正在收集患者的神经成像数据数据库,目的是建立从诊断开始的疾病病程的全面图景。神经成像是研究大脑活动的一种方法。其他监测大脑活动的方法,如脑电图(EEG),也可以从机器学习驱动的数据分析中受益。

4.2运动机能

许多神经退行性疾病,如MND、亨廷顿舞蹈病(HD)和PD,以运动功能障碍为特征,通常以丧失运动能力告终。在写作任务分析中引入机器学习技术,可以帮助对PD患者进行分类,并作为诊断工具。运动数据也可以用于AD的研究。医生可以观看病人进行日常生活器械活动(IADL)(如洗澡、穿衣和吃饭)的录像,并手动评分。深度学习和基于CNN的机器学习算法能够从视频中识别动作,该技术已应用于IADL录音中的动作识别。

4.3语言特征

语言特征是认知状态的重要指标,因为在许多神经退行性疾病中,交流技能和人际行为会恶化。机器学习方法已经被用来从录音文本中提取语言特征,以区分AD患者和健康个体。除了基于机器学习的文本分析外,人工智能驱动的交互式形象符号还被用于捕获更复杂的语言数据。

4.4分子和遗传数据

提高我们对神经退行性疾病的分子基础的理解是开发新疗法和诊断和预知的关键。下一代测序技术提高了DNA测序的速度,使大量数据可以相对较快地获得。产生的大量基因组数据,特别是在GWAS和其他大型队列研究中,需要一种非常精细的分析方法,而机器学习技术在这个领域被证明是有用的。应用机器学习来研究患者样本中的蛋白质特征可以帮助发现生物标志物,这反过来可能会改善疾病诊断。同样,在最近的研究中,机器学习已被应用于MS145或AD146患者的代谢组学数据,以识别这些疾病的新的生物标记。

4.5临床记录

除了上面讨论的应用程序,机器学习还可以用于挖掘日常收集的医疗保健数据,以获得新的见解。机器学习可用于对纵向EHR数据进行时间序列分析。在这些分析中,算法从历史数据中学习预后签名,并在新的数据集中寻找这些签名,为患者创建个性化的健康预测。深度学习方法依赖于大量数据的输入,适合于对电子病历的分析,在某些情况下,电子病历包含了关于全国大多数人口的信息。神经网络模型已被有效地应用于EHRs中,以预测临床事件,提高诊断水平。

5

治疗的发展

许多神经退行性疾病缺乏有效的治疗方法,但这些疾病的临床试验失败率很高,导致大型制药公司撤回投资。大量潜在治疗方法的临床试验失败凸显了开发治疗大脑疾病的复杂性,并为新药开发创造了机会。

5.1靶标识别

神经退行性疾病涉及大量的机制,都有助于疾病的病理。药物靶标识别的一种机器学习方法是知识图上的关系推理,它将基因、疾病和药物等实体连接起来。知识图通常是由多种数据类型的集成构建的。知识图方法可以学习非明显的疾病和生物药物靶点之间的联系(例如,确定新的治疗目标蛋白质与蛋白质的相互作用的基础上已知突变在一个特定的疾病),而且也是有吸引力的,因为一个算法可以用来对多种疾病进行预测。机器学习还可以用于执行大规模的文本挖掘,以提出可能与某种感兴趣的疾病相关的蛋白质。基于机器学习的生物样本分析(例如,死后的中枢神经系统组织)也可能为目标识别提供有用的信息。

5.2病人分层

临床表现、疾病进展和遗传易感性的异质性常常存在于诊断为同一神经退行性疾病的个体群体中。这种异质性使得从整体上研究诊断组来理解疾病机制变得困难,因为不同的个体可能有不同的机制导致疾病的发生,这也使得确定有效的治疗方法变得更具挑战性。因此,根据比诊断类更详细的标准对研究参与者进行分层正变得越来越普遍。患者群体的异质性也是临床试验设计的一个问题。结果变量的自然异质性是一种无益的噪声源,可以掩盖治疗干预的效果。

6

结论和未来的挑战

机器学习算法可以识别模式,并从大量的多维数据中做出新的推论,而这是人类做不到的。在未来,机器学习技术可能会基于病史、分子谱和影像学信息,并通过识别更具体的诊断生物标志物,对神经退行性疾病做出更准确、更早的诊断.

尽管机器学习很有潜力,但创建和应用机器学习算法来处理神经退行性疾病数据仍然很困难。其中一个挑战与数据本身有关——机器学习模型的强大程度取决于它们所依赖的数据。对于许多疾病来说,缺乏大型数据集,特别是多维的患者数据,是机器学习应用的一个障碍。需要对机器学习模型的性能进行稳健的评估,为任务选择最佳的模型,并确保临床医生对模型的输出有信心。许多机器学习算法的另一个局限性是它们是“黑盒”,也就是说,它们不能用来理解它们解决的问题或产生的输出。要解决将机器学习应用于神经退行性疾病数据的挑战,需要生物医学专家和机器学习专家之间的合作。

总之,将机器学习的整合到诊断和预测神经病学实践中,以及设计未来的治疗方法,可能是通过国家和国际努力建立多学科专家组来解决本综述文章中讨论的一些主要挑战而实现的。尤其在人口逐渐老龄化的社会,这些显得尤为重要。

参考资料

Myszczynska, M.A., Ojamies, P.N., Lacoste, A.M.B. et al. Applications of machine learning to diagnosis and treatment of neurodegenerative diseases. Nat Rev Neurol 16, 440–456 (2020).

https://doi.org/10.1038/s41582-020-0377-8

Nat. Rev. Neurol. | 机器学习在神经退行性疾病诊断和治疗中的应用相关推荐

  1. Nature子刊综述:机器学习在神经退行性疾病诊疗中的应用

    摘要:对神经退行性疾病的有效治疗存在巨大的需求.神经元变性的复杂性和患者群体的异质性给这些疾病的早期诊断工具和有效治疗的发展带来了巨大的挑战.机器学习是人工智能的子领域,它使科学家.临床医生和患者能够 ...

  2. Tau PET成像在神经退行性Tau病中的应用—仍然是一个挑战

    病理性错误折叠tau蛋白的累积是一类神经退行性疾病(统称为tau病)的共性特征,其中阿尔茨海默病(AD)是最为常见的.相关疾病还包括进行性核上性麻痹(PSP).皮质基底综合征(CBS).唐氏综合征(D ...

  3. Nature Communications:主要精神和神经退行性疾病的共同机制

    摘要 几种常见的精神病和神经退行性疾病具有共同的流行病学风险; 然而,它们是否具有共同的病理生理学尚不清楚,是科研工作者的研究重点.作者使用25个全基因组关联研究 (GWAS)结果和LD得分回归,发现 ...

  4. 机器学习算法在退行性颈椎和腰椎疾病中的应用:一项系统综述

    Utility of machine learning algorithms in degenerative cervical and lumbar spine disease: a systemat ...

  5. 香港科大与哈佛大学医学院、史丹福大学医学院和伦敦大学学院成立 「神经退行性疾病研究中心」...

    香港科技大学(香港科大)与哈佛大学医学院的教学医院波士顿儿童医院(哈佛).史丹福大学医学院的保罗·F·格伦格林衰老生物学中心(史丹福)及伦敦大学学院(UCL)昨日签署具有里程碑意义的合作备忘录,就前沿 ...

  6. 神经退行性疾病的新希望

    关注"心仪脑"查看更多脑科学知识的分享. 关键词:脑科学.干细胞疗法.行业动态 神经退行过程(neurodegeneration)指神经元结构或者功能的丧失,可能最终会引起神经元死 ...

  7. 睡眠纺锤波、tau和神经退行性病变

    越来越多的科学证据表明,睡眠紊乱对神经退行性疾病的风险和进展具有双向作用.证据来自四个方面的研究:(1)睡眠障碍,特别是阻塞性睡眠呼吸暂停综合征,会增加认知能力下降和痴呆的发生和发展风险:(2)睡眠中 ...

  8. 慧创脑科学第八期直播精彩回顾丨fNIRS与神经退行性疾病

    「慧创脑科学」第8期直播活动圆满结束,此次直播主题聚焦在神经退行性疾病领域,探索fNIRS在神经退行性疾病领域的临床应用.通过对fNIRS在神经领域的临床实践及研究的相关分析,深入了解该联用技术的应用 ...

  9. 儿童自身炎症性疾病诊断与治疗专家共识2022年

    1.定义 自身炎症性疾病(autoinflammatory diseases,AIDs)是由固有免疫系统缺陷或紊乱引起的一组疾病,这组疾病以反复或持续的炎症反应为特点(急性时相炎症蛋白升高).缺乏适应 ...

最新文章

  1. 全球32家人工智能独角兽公司
  2. GetProcAddress 根据 ordinal 导入函数
  3. 可覆写的函数与创建节点
  4. VTK:相互作用之MoveAGlyph
  5. BotSharp v0.2 发布, 支持微信智能回复
  6. 金融时间序列计算分析题1
  7. Java Servlet response
  8. 74LS139改3―8线译码器_3、5号线沿线楼盘6800起!另:为无缝衔接地铁 新增调整公交线路一览!...
  9. sql server死锁_如何解决SQL Server中的死锁
  10. 远程连接Ubuntu服务器
  11. JDK和CGLIB生成动态代理类的区别
  12. 苹果app(iOS app)比较常用的URL schemes,可以用于iOS应用间相互调用
  13. 基于java的幼儿园早教网站
  14. Android Studio统一依赖管理Composing builds,2021最新网易Android面经
  15. 百问网物联网实战-STM32中断
  16. DAMA数据管理知识体系简介
  17. 面试官偷偷给我的软件测试工程师面试题,看完你还怕拿不到offer?
  18. 依靠大数据 社会化协同
  19. 中国服务器芯片龙头股票,4只中国芯片龙头股
  20. 详解搜索引擎的工作原理

热门文章

  1. 美团真的让人无语!背调了一个多星期,跟我说背调不通过!问原因,HR说没办法透露,但可以看其它美团机会...
  2. 阿里云二面:你对限流了解多少?
  3. 精心为你准备的最全的20道Mysql面试题。
  4. Spring Cloud架构的各个组件的原理分析
  5. 牛逼!硬核图解 Tomcat 整体架构
  6. 飞天茅台超卖事故:Redis分布式锁请慎用!
  7. 为什么中国开发不出流行的操作系统和编程语言?
  8. Java 未死,依然很牛逼!
  9. 千万级饿了么交易系统架构 5 年演化史!
  10. 工作五年,还没转型为架构师的程序员何去何从?