生物信息学习的正确姿势

NGS系列文章包括NGS基础、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述))、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step) - Limma差异分析、火山图、功能富集)等内容。

高通量数据中批次效应的鉴定和处理(一)讲述了什么是批次效应和其影响。

高通量数据中批次效应的鉴定和处理(二)讲述了如何查看是否有批次效应影响。

下面呢?就是......

怎么避免批次效应呢?

合理的实验设计和一致的实验操作是避免批次效应的最好方式。如下图所示如何通过合理的设计来避免检测批次带来的影响。

  1. 如左上角图示,若样本量数目不多,可在同一台设备(同一个芯片、同一个测序仪、同一个测序 lane)检测这是最好的方式,不存在检测批次。

  2. 如右上角图示,是最差的实验设计方式,不同组的样本分批检测。

    这种方式无法确定最终检测出的样品差异是生物差异还是设备差异还是二者共同带来的差异。

    这种检测方式会放大样品的差异,引入较多假阳性结果。

    如果只是看这种图,相信大家其实都不会这么设计。

    但换个角度来看,我们 5 月份采一批样去测序,10 月份采一批样去测序,在比较 5 月份样品与 10 月份样品差异时,我们实际的实验设计方式跟这个实验设计也没什么不同。

    或者做病例对照时,健康人样品好收集,一起测序;

    疾病样品一起搜集一起测序,也是类似的设计方式。

    前文所述的一段公案也类似这个设计。

  3. 如左下角所示,平衡设计则是最好的实验设计方式。

    假如实验中存在三个样品组,如对照组基因敲除组基因过表达组,每组 9 个重复,则每次检测时都同时包含每组的 3 个重复,这样获得的数据则可以放在一起校正后分析。

    或者至少对照组的样本在每次测序中都能有 2-3 个重复,最后在数据校正时通过调平对照组数据的检测结果来校正其它样品的检测结果。

    在前文的留言中,也确实有意识比较好的老师,做了类似设计,值得学习。

  4. 如右下角所示,也是芯片检测基因表达的一个常规方式,每个芯片检测一个样本。

    不论是生物重复还是不同生物条件之间都会受到检测芯片的影响,不同重复之间的批次影响可以评估,但不同条件下的批次影响则难以评估。

    芯片这么检测是可以的,但测序时每个测序批次会包含很多不同类型的样品,且测序检测影响因素更多,这一设计会引入较大技术偏差。

上面也只是从检测方式的角度设计出一个合理的试验模式降低批次效应的影响,但除了检测方式,还会有很多不可控的因素也会影响到批次,如不同操作人、不同操作时间等客观因素,还有如配对设计实验中不同的个体自身也是批次的因素。

所以需要有个方式去检测和尽量降低批次效应带来的数据偏差的影响。

好多朋友着急代码,马上就有了......

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

高通量数据中批次效应的鉴定和处理(三)- 如何设计尽量避免批次影响相关推荐

  1. 高通量数据中批次效应的鉴定和处理(六)- 直接校正表达矩阵

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

  2. 高通量数据中批次效应的鉴定和处理(五)- 预测并校正可能存在的混杂因素...

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

  3. 送书|高通量数据中批次效应的鉴定和处理(四)- 在差异基因鉴定过程中移除批次效应...

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

  4. 高通量数据中批次效应的鉴定和处理(二)

    前文讲了什么是批次效应和有哪些影响,我们继续往下看-- 怎么确认数据有无受到批次效应影响 通过样品的层级聚类热图+样品属性信息的注释来展示样品聚类结果有无受批次效应的影响.如下面右图中可见WT_1样品 ...

  5. 高通量数据中批次效应的鉴定和处理(一)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析  ...

  6. 成像光谱技术在植物非生物胁迫表型高通量分析中的研究进展

    成像光谱技术在植物非生物胁迫表型高通量分析中的研究进展 ❝ 名词: 表型:是指植物基因型与环境交互的宏观(结 构)和 微观(生理生化)性状的总和: 植物表型分析:是指获取评估植物复杂性状的过程: ❞ ...

  7. Drug Discovery Today| 频繁命中化合物:高通量筛选中需警惕的假阳性结果

    今天给大家介绍的是2020年1月在Drug Discovery Today上发表的综述"Frequent hitters: nuisance artifacts in high-throug ...

  8. linux ftp下载geo,高通量数据下载还能这样操作?

    本文属于转录组入门系列(RAN-seq基础入门传送门 http://www.biotrainee.com/thread-1750-1-1.html)第2部分内容,以一篇Nature文章为例,详细解读如 ...

  9. 高通量测序中的reads、contig、scaffold

    1.什么是read? 高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是读序:就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较 ...

最新文章

  1. 【Linux】Shell三类变量的作用域——linux shell “永久环境变量”、“临时环境变量”和普通变量之完全解读...
  2. [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计
  3. Bootstrap教程:学习构建第一个Bootstrap 4网站
  4. wechat code miniprogram 没有找到可以构建的 NPM 包
  5. leetcode80. 删除排序数组中的重复项 II
  6. C++中派生类隐式调用与显式调用基类的构造函数
  7. AI造福设计师:搭配色板这种苦差事交给GAN就好啦(教程)
  8. vts传感器采取船舶的_详解虎门大桥监测系统:传感器与物联网功不可没
  9. 查看本地服务器MYSQL的端口号
  10. python 1+2+3+4+5+6+7+8+9累加求和_求1!+2!+3!+4!+5!+6!+7!+8!+9!+10!+...+N! N阶阶乘求和算法 JAVA C Python...
  11. java 反射静态内部类_android-反射的使用(反射静态内部类、非静态内部类、匿名内部类等)...
  12. java 12进制转换_Java进制转换
  13. 电商帝国阿里巴巴起跑中国量子产业
  14. springboot+redis实现文章浏览量记录
  15. matlab的foramt
  16. Thread多线程-(最容易被问到的面试题)
  17. JS:dataTables实现跳转首页与尾页功能
  18. H5移动端rem转成rpx
  19. 基于vue2编写的md编辑器-Bytemd
  20. 考研OR工作----计算机操作系统简答题及疑难知识点总结(第一章 操作系统引论)

热门文章

  1. 【2015年第4期】基于大数据技术的P2P网贷平台风险预警模型
  2. 【操作系统】操作系统的生成
  3. 【Python】Sklearn创建三种仿真数据集
  4. 哥德巴赫猜想(洛谷P1304题题解,Java语言描述)
  5. cmake 常用变量和常用环境变量
  6. Oracle 表空间错误集锦
  7. A quick presentation of the Visual Studio 2010 editions per role
  8. Linux 修改IP及虚拟网卡配置详解
  9. vue 使用axios
  10. vc升级失败恢复快照后数据不一致问题