今天给大家介绍来自哈佛医学院、麻省理工学院以及东北大学(美国)团队发表在Nature Communications上的文章,文章提出一个变分自编码器的概率模型(msiPL)用于学习质谱图像的低维嵌入表示。该模型可分析不同类型质谱仪和不同组织类型的质谱图像;并在3个公开的质谱成像(MSI)数据集以及2个由该论文作者收集整理的MSI数据集上进行了实验,实验结果表明msiPL可以有效的分析这些MSI数据集。

1

研究背景

质谱成像(MSI)是一种用于质谱分析的技术,用于可视化分子(比如生物标志物、代谢物、肽和蛋白质)的空间分布。MSI的快速发展,对解剖病理学以及药物研发产生了重要的影响。研究人员使用计算方法来挖掘MSI数据特征,可以识别具有临床重要性的分子特征并发现新的生物标志物。然而,传统的机器学习技术处理具有高维度的MSI数据面临维度灾难的困境。因此,降维技术被广泛应用于MSI数据分子,比如主成分分析(PCA)和非负矩阵分解(NNMF)等。但是,这些方法都是进行了线形降维,未能捕获谱结构的非线性特征。与此同时,非线性降维方法t-SNE近年来被用于组学数据分析。但是t-SNE方法需要将所有数据都加载到内存,这对于MSI的大量数据是没法做到的。最近有研究提出,采用基于神经网络的自动编码方法相比于线形降维模型具有更加有效地捕获非线性特征的能力。因此,该论文提出了一种基于神经网络的变分自动编码方法msiPL,不需要峰值预处理的操作可以直接输入MSI数据到模型中,并且该模型可以分析不同类型的MSI数据。

2

主要贡献

该论文提出了一个基于变分自编码器神经网络的深度学习模型msiPL,该模型可以更加有效的学习MSI数据集的低维嵌入特征表示,用于MSI数据的峰值学习。

3

模型

数据

该论文一共使用了5个MSI数据集,包括3个来自于公开数据库的数据集,分别是1)人结直肠腺癌的3D DESI MSI数据集,2)人口腔鳞状细胞癌的3D MALDI MSI数据集,3)小鼠肾的3D MALDI MSI数据集来自于公开数据库。以及论文作者收集整理的两个MSI数据集,4)人类前列腺癌的2D MALDI MSI数据集,和5)胶质母细胞瘤的PDX小鼠脑模型的3D MALDI FT-ICR MSI数据集。这些MSI数据集需要从标准化格式imzML转换为HDF5格式以输入到msiPL模型中。

图1 msiPL框架图

方法

模型输入MSI数据的高维度特征表示,输出MSI数据降维之后的特征表示,模型msiPL框架如图1所示。该模型是基于变分自编码器(VAE)的结构,VAE旨在同时优化用于变分推理的概率编码器和概率解码器。将MSI数据表示如下:

其中N为样本数;假设x可以从一个与低维度的隐变量z有关的分布中随机采样,而z是可以从一个先验分布pθ中采样,x是可以从一个条件概率分布采样,则真实的pθ后验分布可以获得MSI数据的低维表示;由于x的高维特性使得后验分布pθ在计算上难以处理,因此引入了一个qψ分布来近似pθ分布,并且假定qψ是从一个均值为μ和方差为σ的分布中采样得到:

然后变分参数ψ是通过使得qψ和后验分布pθ更加接近来估计的。这里采用KL散度来衡量两个分布的接近程度:

其中VAE的编码器和解码器的参数都是通过神经网络优化损失函数来计算的,优化的损失函数如下:

该损失函数的第一项充当编码器的正则化器,它计算近似后验和先验之间的接近度,第二项为交叉熵的预测误差的期望值。该模型的VAE网络结构如图2,其由5层全连接层组成,即输入层,三个隐含层和输出层;神经元数分别是512,5,512,则隐含层h2的输出为MSI数据的低维嵌入表示。

图2 VAE结构图

4

实验

为验证模型的有效性,在3个公开的MSI数据集以及2个由该论文作者收集整理的MSI数据集上进行了实验。限于篇幅,这里主要介绍在2个由论文作者收集整理的MSI数据集上的实验。

分析来自人前列腺癌组织标本的FT-ICR MSI 数据

来自人前列腺癌组织标本的FT-ICR MSI数据含有12716个像素,每个像素是一个高维度的数据点,其含有730403个m/z(质荷比)值。使用msiPL模型在该数据集上进行降维和可视化实验,其VAE网络损失函数下降结果如图3(a),即模型在不到100次迭代后收敛;图3(b)给出了原始数据和预测数据的光谱分布,它们的叠加反映了模型的高质量估计;图3(c)表示模型在该数据集上的非线性嵌入的可视化结果。

图3 在人前列腺癌组织标本的FT-ICR MSI 数据上的实验结果

在胶质母细胞瘤的PDX小鼠脑模型中识别肿瘤特异性代谢特征

从胶质母细胞瘤(GBM12)小鼠脑模型中采集了四个12µm厚度的连续组织切片,并通过MALDI FT-ICR MSI进行分析。该MSI数据非常稀疏,由3570个光谱组成,每个光谱661402个m/z值。使用msiPL模型在该数据集上进行降维和可视化实验,图4(a)表面VAE网络的损失在不到100次迭代内达到稳定收敛,图4(b)表示在误差内预测数据的光谱分布;图4(c)表示模型在该数据集上的非线性嵌入的可视化结果;将学习到的低维嵌入特征使用高斯混合模型(参数k=8)进行聚类,聚类图像(图4 d)揭示了分子上不同的组织区域,例如异质性肿瘤区域(簇2和簇8)和肿瘤边缘(簇4);图4(e)给出了原始数据和预测数据的光谱分布。

图4 在胶质母细胞瘤的PDX小鼠脑模型中识别肿瘤特异性代谢特征的实验结果

5

总结

研究计算方法来挖掘MSI数据特征,可以识别具有临床重要性的分子特征并发现新的生物标志物。然而,现有的计算模型处理高维稀疏的MSI数据存在一定的局限性。因此,该论文提出了一种基于VAE神经网络结构的模型msiPL,用于分析和学习来自不同类型质谱仪和组织类型的MSI数据。并在五个不同的MSI数据集上进行了实验,结果表明msiPL在分析这些MSI数据集上是有效的。该论文作者表示其未来研究方向是设计模型来完成直接从质谱数据中对肿瘤类型和等级进行分类和预测的任务。

参考资料

Abdelmoula, W.M., Lopez, B.GC., Randall, E.C. et al. Peak learning of mass spectrometry imaging data using artificial neural networks. Nat Commun 12, 5544 (2021). https://doi.org/10.1038/s41467-021-25744-8

代码链接:

https://github.com/wabdelmoula/msiPL.git

Nat. Commun. | msiPL:质谱数据分析的新工具相关推荐

  1. Nat. Commun. | AI语言工具揭示分子运动

    大家好,今天推荐的是Nature Communication发表的UMD研究人员使用人工智能语言工具解码分子运动的文章,文章的通讯作者是来自马里兰大学化学与生物化学系和物理科学与技术学院的医学博士Pr ...

  2. Nat. Commun. | 机器学习在化学发现中的应用

    2020年8月17日发表在nature communications上的一篇关于"Machine learning for chemical discovery"评论的文章,通讯作 ...

  3. 《科学》:媲美AlphaFold2的蛋白质结构预测新工具问世,一台游戏计算机十分钟出结果,完全免费...

    来源:学术头条本文约2000字,建议阅读5分钟 整个研究学界都将受益. 如今,人工智能已经渗透到人们生活的方方面面,各种深度学习算法也越来越多地应用于各个领域.尤其在生物和医学领域,人工智能技术可以说 ...

  4. Nat Commun |完全开源!肿瘤基因组数据报告解读平台,可满足商业报告解决方案...

    随着精准医疗的不断发展,科学研究和临床应用中对癌症基因组数据的解读需求也在增加.虽然目前癌症测序数据分析流程的自动化提高了报告的速度和结果的可重复性,通过使用交互而非静态报告,临床对复杂基因组数据的理 ...

  5. Nat. Commun. | Ⅱ型糖尿病控制不良怎么办?专注于HbA1c进行综合多种用药治疗的综合比较为您提供优化方案...

    糖化血红蛋白(HbA1c)是红细胞中的血红蛋白与血清中的糖类(主要指葡萄糖)通过非酶反应相结合的产物.糖化血红蛋白浓度可有效地反映过去8~12周平均血糖水平. 因Ⅱ型糖尿病的治疗效果与糖化血红蛋白的含 ...

  6. Nat. Commun.|概率蛋白质序列模型的生成能力

    本文介绍了由坦普尔大学Vincenzo Carnevale和Allan Haldane共同通讯发表在Nature Communications的研究成果:本文提出了一个新的标准来度量蛋白质序列生成模型 ...

  7. Nat.Commun.|使用基于注意力机制的多标签神经网络预测并解释12种RNA修饰

    今天介绍来自西交利物浦大学和福建医科大学的Zitao Song, Daiyun Huang等人六月份发表在Nature Communication的文章"Attention-based mu ...

  8. Nat. Commun. | 深度学习探索可编程RNA开关

    1.背景 具有特定生物学功能的工程RNA分子在合成生物学中发挥着重要作用,特别是作为小分子.蛋白质和核酸的可编程反应元件:例如作为核糖开关.核糖调节因子和核酶,且在体内和体外都可应用.工程RNA分子功 ...

  9. Nat. Commun. | 序列到功能的深度学习框架加速工程核糖调节剂设计和优化

    今天给大家介绍由哈佛大学和剑桥大学的研究人员联合发表在Nature Communications的一篇文章.由于对设计规则的理解有限,设计全新的生物回路组件仍然是一项具有挑战性的工作,支点开关(Toe ...

最新文章

  1. 抖音计算机音乐你要我,抖音上很火的我要你快乐我要你快乐是什么歌?
  2. 千万级的mysql数据库与sql优化方法
  3. 电脑上安装了多个版本的nodejs,如何知道node命令调用的哪一个
  4. lda进行图片分类_LDA主题模型
  5. Java-类加载器-类运行时结构-。。。。
  6. java学到哪里最容易蒙,蒙哥比vs蒙克(目前最好的哪个)
  7. database design
  8. Java架构师面试网整理-JVM面试专题(共8题含答案)
  9. 如何向父母解释什么是爬虫?
  10. 启动和停止数据库——停止例程
  11. Java:JSON解析工具-org.json
  12. 爱上MVC系列~过滤器实现对响应流的处理
  13. 自我监督学习和无监督学习_弱和自我监督的学习-第3部分
  14. java 怎么调用clojure_从java调用Clojure时Clojure状态的范围
  15. 【原创】matlab 2010的下载和安装
  16. 将dubbo暴露HTTP服务
  17. 刍议当代大学生恋爱观
  18. OCR中文文字识别软件
  19. python电子章_python二级电子教案 第2章 Python语言基本语法元素
  20. 福布斯:美国Top 50金融科技公司简介

热门文章

  1. 5、catch中发生了未知异常,finally代码块如何应对?
  2. 8种常被忽视的SQL错误用法,快来认领一下!
  3. 贝壳大数据OLAP平台架构演进
  4. 4.5万字手把手教你实现MySQL TB级数据存储!!
  5. 【分布式事务】面试官问我:MySQL中的XA事务崩溃了如何恢复??
  6. 提升职场价值,把握成长方向
  7. SLA 99.99%以上!饿了么实时计算平台3年演进历程
  8. 突发!又一个程序员在东南亚出事了...
  9. 不去参加团建k歌,第二天被降薪降职
  10. 87岁的老奶奶喜欢用windows画图程序作画,而且画得还贼好!