1.研究背景

在生物医学领域,分析大规模、高维度的单细胞数据,并且处理由分批实验效应和不同制备造成的数据噪声是当前的挑战;单细胞数据的大规模、高维度处理比较困难,需要考虑数据中不同程度的噪声、分批效应、人工误差、稀疏异质性。

近年来,深度学习技术在处理生物医学数据方面的应用崭露头角,并取得不错的效果,这给大规模、高维度的单细胞数据分析处理带来了希望;2019年10月,耶鲁大学Smita Krishnaswamy课题组提出多任务神经网络框架SAUCIE,在来自40个科属180个样本的1.1千万的细胞群数据集上执行批量校正(不同批次实验数据去噪)、推断(预测细胞中的两个基因之间关系)、聚类、降维可视化四个任务,相比于对应的单任务学习主流方法表现出更好的效果。

2.方法

2.1 自编码器

自编码器是一种利用反向传播算法使得输出值等于输入值的神经网络,它先将输入压缩成潜在特征空间,然后通过这种表征来重构输出。其由编码器和解码器两部分组成,编码器可以将输入压缩成潜在特征空间表示,解码器能够重构来自潜在空间表示的输入;目前,自编码器的应用主要是数据去噪、可视化两个方面;不同类型的自编码器适用于不同的任务,正则化自编码器可以使得模型具有可解释性,其不需要使用浅层的编码器和解码器以及小的编码维数来限制模型容量,而使用损失函数来鼓励模型学习其他特征,这些特征包括对噪声的鲁棒性、稀疏表征。

2.2 SAUCIE模型

耶鲁大学Smita Krishnaswamy课题组提出SAUCIE模型,该模型由三个编码层、一个嵌入层、三个解码层组成;在编码层中,三个层的神经元数目默认依次是512、216、128,都是采用learky_relu作为激活函数;中间是嵌入层,使用线性激活函数,输出二维的嵌入向量;随后是解码层,其与编码层结构对称,但其最后一层引入了正则化,输出和输入同维度的特征向量;嵌入层的输出二维特征向量可用于批量校正和可视化降维任务,解码层的输出特征向量可用于聚类和推断任务。

图1  SAUCIE模型框架

为了执行多个任务,SAUCIE模型使用单一架构(如图1),但按顺序训练与优化;首先,将原始数据输入模型进行去噪和修正批处理效果;然后将预处理好的数据再输入模型进行可视化降维和聚类;两次的训练是优化不同的目标函数;在第一次训练中,输入n*d维度矩阵X(每行是一个样本点,每列是一个特征)到编码器中提取特征,然后再由解码器对其进行重构,得到和输入维度相同的 ,达到对数据去噪和校正批处理效果。第二次训练,预处理好的数据输入编码层学习其嵌入的二维表示,其可以用作对数据可视化;接着将二维表示送入解码层,其输出和输入同维度的向量矩阵,该矩阵可以用于对数据的聚类与推断。第一次训练的损失函数为 ,其中为输入和输出的均方误差, 为正则化项, 为参数。第二次训练损失函数为 ,其中为输入和输出的均方误差,是为了学习二元表示的正则化项,是为聚类提供可解释性的正则化项, 为参数。

3.实验结果

为了评估SAUCIE模型,论文在10个公开单细胞数据集上,分别是5个CyTOF数据集:the dengue dataset、T cell development data、renal cell carcinoma data、breast tumor data、iPSC data,5个scRNA-seq数据集:mouse cortex data、retinal bipolar cells、hematopoiesis data、mouse brain data、the 10x mouse megacell demonstration;执行聚类、分批处理校正、可视化、推断四个任务,并分别和对应任务的主流方法进行对比实验。

3.1 聚类

对于聚类任务,使用人工数据集GMM、两个CyTOF数据集(Shekhar et al, Chevrier et al)、三个scRNA-seq数据集(Ziesel et al, Paul et al, and Setty et al),与minibatch kmeans、Phenograph、single-cell variational inference(scVI)三个模型进行对比,聚类结果如图2。

图2 聚类结果对比

3.2 分批处理校正

对于分批处理校正任务,使用人工数据集GMM、the dengue dataset、mouse cortex data、Chevrier et al、 Azizi et al and Setty et al数据集,与mutual nearest neighbors(MNN)、canonical correlation analysis(CCA)模型进行对比,实验结果如图3。

图3 批处理校正效果对比

3.3 可视化

对于可视化任务,使用Artificially generated trees 3, Artificially generated trees 7,Artificially generated trees 20,random tree generated with diffusion limited aggregation (DLA), intersecting half circles, GMM, scRNA-seq hematopoiesis from Paul et al, CyTOF T cell development from Setty et al,  CyTOF ipsc from Zunder at al,  scRNA-seq retinal bipolar cells from Shekhar et al,  scRNAseq mouse cortex from Zeisel et al数据集与PCA、Monocle2 diffusion maps、UMAP、tSNE、PHATE模型进行对比,precision-recall指标结果如图4。

图4 precision-recall指标结果对比

3.4 推断

对于推断任务,使用10x mouse cortex数据集,与MAGIC、scImpute、nearest neighbors completion(NN Completion)模型进行对比,预测结果如图5。

图5 推断

输入标题

效果对比

3.5局限性

SAUCIE模型实质上一个正则自编码器,虽然具有一定的可解释性,但是对部分数据,重建输入可能不是理想的指标,并且全局优化较困难。

4 结论

论文提出了一个多任务神经网络框架SAUCIE,其可以处理聚类、分批处理校正、可视化、推断四个重要任务,在多个数据集上分别比对应任务的主流模型表现出更好效果。到目前为止,深度学习主要作为一种黑盒模型应用在生物医学中,网络内部本身缺乏可解释性;但是论文采用正则化自编码器的结构,提高了模型的可解释性,这给未来处理生物医学数据模型提供了一定的指导意义。

参考资料

https://www.nature.com/articles/s41592-019-0576-7

数据地址:

https://community.cytobank.org/cytobank/experiments/82023

代码地址:

https://github.com/KrishnaswamyLab/SAUCIE/

Nature Methods | 用深度多任务神经网络探索单细胞数据相关推荐

  1. 用多任务网络探索单细胞数据

    目录 摘要 引言 结果 SAUCIE的架构和layer的正则 聚类Clustering Batch correction Imputation and denoising 可视化 对感染登革热的患者的 ...

  2. Nature Methods | TooManyCells:单细胞聚类和可视化方法

    2020年3月2日宾夕法尼亚大学的Gregory W. Schwartz等研究人员在nature methods上发表了题为TooManyCells identifies and visualizes ...

  3. 康奈尔Nature论文:一种使用反向传播训练的深度物理神经网络

    来源:专知 本文约1000字,建议阅读5分钟 康奈尔大学的研究人员介绍了一种混合原位-计算机算法. 深度学习加速器旨在高效地执行深度学习,通常针对推理阶段,并且通常通过利用传统电子设备之外的物理基板. ...

  4. Nature methods | Alevin-fry, 一种高效准确的单细胞测序数据预处理工具

    随着单细胞以及单核测序(single-cell and single-nucleus RNA-sequencing)的快速发展以及逐渐普及,越来越多的单细胞测序数据集在近几年不断的出现.这些数据集不仅 ...

  5. 挑战深度学习 《深度森林:探索深度神经网络以外的方法》

    挑战深度学习 <深度森林:探索深度神经网络以外的方法> 阅读量:1306 收藏本文 深度神经网络的巨大成功掀起了一股深度学习热潮. 或许,这股热潮有些"太热"了. 就在 ...

  6. Paper:《Graph Neural Networks: A Review of Methods and Applications—图神经网络:方法与应用综述》翻译与解读

    Paper:<Graph Neural Networks: A Review of Methods and Applications-图神经网络:方法与应用综述>翻译与解读 目录 < ...

  7. 67页综述深度卷积神经网络架构:从基本组件到结构创新

    点击我爱计算机视觉标星,更快获取CVML新技术 本文为52CV群友王广胜对上个月更新的CNN综述文章A Survey of the Recent Architectures of Deep Convo ...

  8. 一种基于深度卷积神经网络(DCNN)用于于头发和面部皮肤实时分割方法

    团队信息 摘要 现代的语义分割方法通常过于关注模型的准确性,因此引入繁琐的主干,这会带来沉重的计算负担和内存占用.为了解决这个问题,作者提出了一种基于深度卷积神经网络(DCNN)的高效分割方法,用于头 ...

  9. Nature Methods:微生物来源分析包SourceTracker——结果解读和使用教程

    前一阵我们翻译Rob Knight的综述,1.8万字,让你熟读2遍轻松握掌微生物组领域分析框架.把握未来分析趋势.目前在宏基因组平台累计1.9万人次,热心肠平台首发阅读8500+,科学网加精置顶阅读8 ...

最新文章

  1. LocalResizeIMG前端HTML5本地压缩图片上传,兼容移动设备IOS,android
  2. javascript学习1---用dom对象动态控制表格
  3. 【Linux】27.Markdown的用法
  4. java中的Cookie是什么_第74节:Java中的Cookie和Session
  5. 【qduoj】C语言_凯撒密码
  6. Linux下压缩包生成与解压命令以及进度
  7. Storm精华问答 | Storm的配置需要注意什么问题?
  8. 分区裁剪 oracle,[讨论]分区表并行和剪裁的困惑
  9. 3-40HDFS读数据流程
  10. toj 4610 Biggest Number
  11. linux文件内上下移动,Linux中有多个查看文件的命令,如果希望在查看文件内容过程中用光标可以上下移动来查看文件内容,则符合要求的那一个命令是( )。...
  12. 密码键盘介绍三:数据加解密
  13. ISO9000认证与互联网转型
  14. dnf服务器系统,可以挂dnf的云服务器
  15. matlab制作水印,怎么在含有水印的图像中提取出水印
  16. 【Android自动化测试】Robot Framework+adb框架(四)——L2层关键字
  17. 圆角矩形大小怎么调整html,html圆角矩形
  18. 综合练习2:购买电影票(代码区别:对象.成员方法)
  19. 计算机二级考试失误有提示吗,2016年计算机二级考试应该避免的失误
  20. 福莱特法公式matlab,浙江省公路出行交通分布模型研究

热门文章

  1. fedora-10-i386下华为联网问题
  2. 彻底理解大数据 HDFS 分布式文件系统,这篇就够了
  3. TiDB 在中通的落地与进化
  4. 巧用二进制,让性能提升100倍,让存储空间减少100倍
  5. 喜马拉雅自研网关架构实践
  6. 互联网的中层管理,一个庞大且易脆的群体
  7. 秒懂QPS、TPS、PV、UV、GMV、IP、RPS!
  8. Hadoop数据收集与入库系统Flume与Sqoop
  9. “三板斧”式文化价值体系互助协作,打通企业全流程管理模式
  10. 除了Tapd,还有哪些好用的项目管理工具,适用于100+人的大中型团队?