高通量数据中批次效应的鉴定和处理(二)
前文讲了什么是批次效应和有哪些影响,我们继续往下看……
怎么确认数据有无受到批次效应影响
通过样品的层级聚类热图+样品属性信息的注释来展示样品聚类结果有无受批次效应的影响。如下面右图中可见WT_1
样品在聚类分支上与其它样品处于不同的分支,而从列注释图可以看到WT_1
的seqPlatform
和batch
信息与其它样品不同,这是给我们的一个提示可能存在批次效应影响。
通常我们在整合多套数据集进行展示时也会加上数据来源信息以展示自己的分析结果未受批次等因素影响。如下图每一列是一个样品,每一行是一个菌群;列注释中有一行为Dataset
指示样品来源于 2 个数据集,并且聚类结果没有明显受到数据集来源的影响(四个大的聚类分支中样品来源分布没有明显偏好性);
通过主成分分析PCA查看有无批次效应的影响。如下左图,样品在PC1
和PC2
组成的空间中按数据集而非样本类型聚在一起,表示数据来源对样本检测结果的影响超出了样本类型的影响,提示存在批次效应。如右图,批次效应移除后,在PC1
轴上样品基本按正常-癌旁-肿瘤
分布,表示当前样品差异的主要影响因素是样本类型。这时可以绘制样品在更多PC
轴上的分布,如PC1-PC3
、PC1-PC4
等构成的空间中样品差异的主要因素是什么,也可以进一步判断批次效应移除的程度怎样。
通过样本整体表达分布查看有无批次影响。不同来源的样本一般是各自进行标准化(尤其是芯片数据),合并在一起后,可以简单的从整体表达分布来查看是否存在明显的偏移。如下左图存在明显的偏移,则提示有批次效应的存在。校正后,如右图,看上去样本的整体表达分布均一了。但是否批次影响就被移除了,却很难据此下结论。
通过部分基因集的表达变化查看有无批次效应影响。不同来源的数据一起标准化之后,如果标准化效果好的话,样品整体表达分布也会是均一的(如下面左数第二幅图)。但从中随机抽取数百基因却发现其表达收到了批次的影响(如下面左数第三幅图,只展示了数个基因),而且聚类结果也把两组正常样品分到了各自来源相对应的分支上。
高通量数据中批次效应的鉴定和处理(二)相关推荐
- 高通量数据中批次效应的鉴定和处理(六)- 直接校正表达矩阵
生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 ...
- 高通量数据中批次效应的鉴定和处理(五)- 预测并校正可能存在的混杂因素...
生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 ...
- 高通量数据中批次效应的鉴定和处理(三)- 如何设计尽量避免批次影响
生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 ...
- 送书|高通量数据中批次效应的鉴定和处理(四)- 在差异基因鉴定过程中移除批次效应...
生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 ...
- 高通量数据中批次效应的鉴定和处理(一)
生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 ...
- Brief Bioinform | 农科院深圳基因组所王怡雯组提出一种去除微生物组数据中批次效应的多元算法框架...
PLSDA-batch:去除微生物组数据中批次效应的多元算法框架 PLSDA-batch: a multivariate framework to correct for batch effects ...
- 成像光谱技术在植物非生物胁迫表型高通量分析中的研究进展
成像光谱技术在植物非生物胁迫表型高通量分析中的研究进展 ❝ 名词: 表型:是指植物基因型与环境交互的宏观(结 构)和 微观(生理生化)性状的总和: 植物表型分析:是指获取评估植物复杂性状的过程: ❞ ...
- Drug Discovery Today| 频繁命中化合物:高通量筛选中需警惕的假阳性结果
今天给大家介绍的是2020年1月在Drug Discovery Today上发表的综述"Frequent hitters: nuisance artifacts in high-throug ...
- linux ftp下载geo,高通量数据下载还能这样操作?
本文属于转录组入门系列(RAN-seq基础入门传送门 http://www.biotrainee.com/thread-1750-1-1.html)第2部分内容,以一篇Nature文章为例,详细解读如 ...
最新文章
- 码农技术炒股之路——实时交易信息、主力动向信息分库备份
- Android的代码都得自己一个个敲一遍吗?
- boost::fusion::for_each用法的测试程序
- XMLHttpRequest、fetch的ajax请求
- 抵御物联网DDoS军团
- C# 打印PDF文档的10种方法
- OIDC在 ASP.NET Core中的应用
- access游戏库不显示 ea_全球游戏公司营收一览:腾讯连续第六年霸榜
- [转载]要死的人都后悔些什么
- 旁枝末梢(我好像稍微理解了mvc和mvvm)
- 暗通道去雾算法的python实现
- Vue:列表渲染 v-for on a template
- php直播平台原理,php直播平台源码的直播带货平台有何技巧,别说没告诉你
- mac倾倒废纸篓提示文件正在使用中的一种解决办法
- C++PrimerPlus 第七章 函数-C++的编程模块-7.3 函数和数组
- 没学历没基础怎么学IT?零基础学IT必须知道的事!
- sim_com AT
- 十年架构师留下最完整的Java学习路线,学完年薪88W
- 2022-2028全球与中国颈挂式蓝牙耳机市场现状及未来发展趋势
- 漫谈程序员系列:伤心小箭,你中了几枝