imputation-文献:False signals induced by single-cell imputation(scRNA-seq插补引入的假阳性问题)
文章题目
False signals induced by single-cell imputation
中文名:
单细胞插补引起的假信号
文章地址:
https://f1000research.com/articles/7-1740/v2
评价插补方法:
SAVER,DrImpute,scImpute,DCA,MAGIC,knn-smooth
上述方法基于原理不同
SAVER,scImpute,drImpute基于模型,knn-smooth和MAGIC基于高斯平滑的思路,DCA是一种使用自编码器的基于深度学习的方法
评价指标构造方法:
1.构造简单的负二项数据集
1000个细胞 500个基因(平均表达确定在一个区间水平内) 细胞类型2类
数据集中不存在dropout现象(没有0值)
数据集中基因 一半处于差异表达状态 另外一半独立绘制 不存在差异表达
鉴定方法:通过SPearman相关性鉴定细胞间相关性,相关性确定后,用Bonferroni矫正相关性
假阳性设定:
不涉及DE基因或方向不正确的相关性被视为假阳性
结果
结果说明
所有插补方法都提高了检测低表达DE基因相关性的敏感性。然而,只有SAVER增强了低表达DE基因之间的相关性,而没有在独立绘制的基因之间产生假阳性基因相关性。
2.构造基于Splatter的数据模型
生成60个模拟scRNA-seq矩阵matrix
模拟数据集中的DE差异基因占比和dropout率各不相同,此外
每种方法的组也不相同
通过测试各组之间的差异表达基因来评估插补带来的假阳性可能
使用Kruskal Wallis检验来验证插补后数据的分布是否出现变化
真正的差异表达基因定义为:
gene大小为所有成对簇的最大对数2倍变化且在5%FDR后显著的基因才被称为DE gene
假阳性设定
构造的splatter数据集本身具有不同数据的原始值 设定为reference 这个值可以作为ground truth使用
插补前后的数据集本身的DE gene 与真实情况的出入视为假阳性和假阴性来源
结果
结果解读
总的来说,当同时考虑敏感性和特异性时,基于模型的方法比平滑方法表现更好
3.对Tabula Muris数据集进行插补改装
从Tabula Muris中选择了6个10X 12个Smart-seq2的数据集
1.首先做归一化:
至少有两种细胞类型含有>5%的总细胞数目,过滤后有500-5000个细胞(表S1)。对每个数据集进行预处理,以删除占总细胞数小于5%的细胞类型,以及未分配给命名细胞类型的任何细胞。对基因进行过滤,以去除在不到5%的细胞中检测到的基因。
2.然后基于欧氏距离选择每种数据集中最相近的两个细胞类型
3.随后在选定细胞类型中计算基因差异表达
4.应用Mann-Whitney-U检验测试两种选定细胞类型之间的差异表达,评估每个插补引入的假阳性。采用Bonferroni多重检测校正,以确保预期总误报率低于1
5.留下不差异表达的基因,对其进行插补去噪
假阳性设定
插补去噪后进行上述步骤,差异表达基因如果存在即代表假阳性出现。
结果
结果解读
同一种方法在不同数据集上假阳性可能性不同。
4.构造可再现性的marker指标
上一步骤讲述的Tabula Muris数据集在该步骤继续使用
通过Mann-Whitney-U检验方法来确定标记基因Marker
Marker gene是一种不同于DE gene的指标 每一个gene都会被分配一个自己的marker所属细胞类型
判定标准:将基因分配给AUC值最高的细胞类型
使用5%的FDR和超过特定阈值的AUC为每个输入数据集定义重要标记基因
通过这种方法可以将每个基因分配给数据集中的单个细胞类型 而不是全局细胞类型
假阳性设定
设定为marker的gene在插补后是否是可再现的
可再现性分数定义为:
在两个数据集中都是显著标记的、也是同一细胞类型标记的标记的分数
结果
结果解读
存在大量的不可重现的标记marker gene 说明在不同数据集中的可定义为某个细胞类型的marker其实是有差别的。同一个marker gene在不同的数据集中属于不同的细胞类型。
如果不进行插补,两个数据集中95%的显著标记基因在同一细胞类型中高度表达。插补后,根据AUC阈值(可以划归为marker的阈值)的升高,这一数字大幅下降。在估算的Smart-seq2和10X Chromium数据集中,降低幅度阈值会导致更多标记分配给相互矛盾的细胞类型。
未经插补过的数据实际上获得了最高比例的一致性marker
插补之间的marker存在矛盾,同一个数据集中,通过不同插补方法分配给不同细胞类型的重要标记(FDR 5%)的比例亦不相同。
根据所用的插补方法,总共有5-35%的markergene 分配给不同细胞类型。
且存在偏向性 一部分属于MAGIC、SAVER和dca,另一部分属于scImpute、DrImpute和knn-smooth。
同样的数据集经过不同的插补方法处理后,同一数据集的两种不同细胞(红,蓝)出现了DE基因的假阳性变化。例如,使用MAGIC插补后,Zfp606在PP细胞中的表达高于A细胞,但使用knn光滑插补后则相反。
总结
- 1.各类插补方法都会导致假阳性无可避免的存在
- 2.平衡sensitivity和specificity之间的基本平衡不可靠插补来打破
- 3.真实数据集相比于仿真数据集(splatter)变化更多,一些本来不会产生假阳性的方法在真实数据集上还是会产生假阳性
- 4.不同的插补方法既有利于敏感性,也有利于特异性,但没有一种方法能够全面改善差异表达的检测
- 5.当前单细胞RNASeq插补方法的基本局限性,即仅使用原始数据中的信息。因此,没有获得新的信息,这类似于简单地降低应用于数据的任何统计检验的显著性阈值
- 6.验证多个数据集或多个插补方法的结果再现性可以消除一些假阳性。
imputation-文献:False signals induced by single-cell imputation(scRNA-seq插补引入的假阳性问题)相关推荐
- imputation文献-A systematic evaluation of single-cell RNA-sequencing imputation methods
文章题目 A systematic evaluation of single-cell RNA-sequencing imputation methods 中文名: 单细胞RNA测序插补方法的系统评价 ...
- induced pluripotent stem cell (iPSC) 诱导性多能干细胞
参考: 诱导性多能干细胞 Induced pluripotent stem cell Induced Pluripotent Stem Cells: Problems and Advantages w ...
- Multiclonal Invasion in Breast Tumors Identified by Topographic Single Cell Sequencing
Title: Multiclonal Invasion in Breast Tumors Identified by Topographic Single Cell Sequencing 课题的目的 ...
- single cell 基础笔记(一)
课程地址 https://hemberg-lab.github.io/scRNA.seq.course/index.html 2 Introduction to single-cell RNA-seq ...
- 【SCENIC】Single Cell rEgulatory Network Inference and Clustering
前言:GRN究竟 可以被用来做什么?在bulk GSVA学习时我也有过类似的困惑.在官方文档中,多次强调用GRN AUC去cluster,且效果比单纯基于表达量的降维聚类方法好,SCENIC不是文章做 ...
- single cell marker 基因数据库
Mouse Cell Atlas:https://links.jianshu.com/go?to=http%3A%2F%2Fbis.zju.edu.cn%2FMCA%2F CellMarker:htt ...
- 单细胞转录组测序技术(single cell RNA-seq)及细胞分离技术分类汇总
单细胞测序流程(http://learn.gencore.bio.nyu.edu) 在过去的十多年里,高通量测序技术被广泛应用于生物和医学的各种领域,极大促进了相关的研究和应用.其中转录组测序(RNA ...
- 大数据缺省值插补方法(回归填补[stochastic regression imputation],聚类填补,。。)
文章目录 回归填补 random imputation deterministic regression imputation stochastic regression imputation 聚类填 ...
- Deep Depth Completion of a Single RGB-D Image(深度像素补全)全文机器翻译
懒得手翻了,全文机器翻译,凑合着看吧,建议对着原文看 RGB-D图像的深度补全(Deep Depth Completion of a Single RGB-D Image)(全文机器翻译) Yinda ...
最新文章
- 前台使用三元运算符判断显示
- 关于for和foreach,兼顾效率与安全
- VS2010中手动配置opencv2.4.10
- php对接钉钉_PHP使用POST方法与钉钉对接无返回结果的问题
- FTP服务器的搭建与安全配置
- elementui的upload组件怎么获取上传的文本流、_抖音feed流直播间引流你还不会玩?实操讲解...
- SQLServer2000同步复制技术实现步骤作者
- PVS-Studio C/C++/C++11 静态代码分析工具
- mongodb db.serverStatus() 仍然不能提示认证失败
- 设计模式那点事读书笔记(2)----抽象工厂模式
- Unity3D数字孪生笔记——Unity脚本篇
- HarmonyOS Hi3518系列 环境篇②——HiTool工具烧写运行
- js 毫秒转成时分秒毫秒格式
- activiti6.0通过bpmn.js展示高亮流程图(前端绘制流程图)
- John Gaar “Slow Rollin” WA47 WA87 WA14麦克风
- 当你在搜索框按下enter的一刹那发生了什么?
- 织梦网站如何设置404错误页面?
- qt中提升控件的操作
- (42)2021-03-01(物体运动、swiper软件、自执行函数)
- 蒂森调试软件Tcm manager ,mc1-mc2系统,电脑端,可以调试蒂森电梯程序
热门文章
- 华硕T100 安装linux,华硕T100重装win10系统教程
- 0203逻辑卷管理、RAID磁盘阵列、VD0、管理运行级别
- 阿里滑块 某宝的x82y解决方法、x5sec
- 债居时代总结与读后感——房贷如何影响经济[美]阿蒂夫·迈恩 [美]阿米尔·苏非著
- connect holder is null问题记录
- 清华大学邓俊辉-数据结构MOOC笔记-树的概念及逻辑表示
- 上汽赛可携手几维安全 赋能移动出行安全新业态
- 8255实现数码显示管显示两位数字
- BPM平台应用价值(下篇):你想爬爬“流程中台”这座山吗?
- 计算机二级考试主要学什么,计算机二级考试需要学习什么内容