DEseq2 差异分析基本原理
DEseq简介
寻找组间显著表达变化的基因,以解释基因表达水平的变化对生物功能的变化最直接的办法就行进行转录组测序和定量。那如何从不同组定量的转录组寻找到那些显著差异的基因呢?DESeq 就是来解决这个问题的,它主要使用负二项分布的模型来进行差异分析。DESeq2是DEseq的升级版,但是DEseq2只适用于有生物学重复的试验,而DEseq既可以做有生物学重复也可以做无重复(或部分重复的)试验。
2. DEseq2的差异分析原理
2.1 统计模型:负二项分布
所谓的差异分析实际上是指通过假设检验来判断两组数据是否存在显著差异,有参数检验(总体分布已知)和非参数检验(总体分布未知)两种方式,显然,对于分布已知的数据,运用参数检验的结果会更准确些。因此在进行表达差异分析的时候,我们会假定表达数据符合某一个特定的分布,然后在使用参数检验的方式进行假设检验。
那么,表达数据(read counts)应该是一个什么样的分布呢?首先read counts本质是数目值,是一个离散的非零整数,其分布应该是离散型分布,其次,对于测序数据往往是n很大,p很小的分布,因此学术界常用泊松分布和负二项分布来描述。事实上,早期确实有人使用泊松分布来进行差异分析,不过后续发现基因的read counts的均值和方差并不是相等的(如下图示),这并不符合泊松分布均值和方差是相等的规律,因此发展至今,负二项分布成为差异分析的主要分布模型。
2.2 数据标准化
理论上知道了数据的已知分布(负二项分布),就可以直接进行差异分析了。但对于测序分析得到的read counts需要事先标准化处理,才能用于差异分析。标准化处理主要为了解决两个问题。
1) 文库大小造成的两组数据之间存在差异。
2) 文库组成造成的两组数据基因的比例存在差异
具体的标准化过程如下:
1)计算所有样本的同一基因的对数均值,然后去除对数均值为Inf的值(read count为0的)。取对数的目的是减弱异常值的影响,使得数据分布更加平滑; 剔除reads数为0的基因是为了留下稳定表达的基因。
2) 使用对数矩阵分别减去对应基因的对数均值,得到一个新的矩阵。
3) 对于上个步骤得到的新的矩阵,计算每个样本的中位数(均值比较容易受异常值的影响,但中位数对异常值则不敏感) ,然后使用该中位数取真数,得到的结果作为该样本的标准化因子。
4) 原始reads数矩阵分别除以标准化因子得到最终标准化的矩阵
得到的标准化的表达矩阵就可以使用负二项分布的统计模型进行假设检验了。
DEseq2 差异分析基本原理相关推荐
- 【bulk RNA-seq】DESeq2差异分析 硬核
心血来潮写了个bulk RNA-seq的代码,该有的基本都有了.省去了路径和具体的基因.以后更新一下用公共数据跑出来的图吧.最近比较忙. 包非原创,代码是原创.转载或引用请注明出处或与我联系. 版本: ...
- 使用DESeq2进行两组间的差异分析
欢迎关注"生信修炼手册"! DESeq2 接受raw count的定量表格,然后根据样本分组进行差异分析,具体步骤如下 1. 读取数据 读取基因的表达量表格和样本的分组信息两个文件 ...
- 使用DESeq2进行转录组原始count标准化和差异分析
转录组测序完成后,一般我们会获得一个原始 read count表达矩阵,其中行是基因,列是样品.常用的差异分析工具包括limma.edgeR和DESeq2.DESeq2在测序领域使用最为广泛(goog ...
- 几种常用的差异分析方法简介
几种常用的差异分析方法简介 如今在生物学研究中,差异分析越来越普遍,也有许多做差异分析的方法可供选择.但是在实际应用中,大多数人不知道该使用哪种方法来处理自己的数据,所以今天我就来介绍下目前几种常用的 ...
- 从GEO下载数据预处理+DESeq差异分析+KEGG、GO富集分析
因为自己最近需要用GEO的数据来画火山图和富集分析图,就整理了一下操作流程. 一.从GEO中下载数据 我是用代码直接从GEO中下载数据,也可以自己手动去官网上下载,以GDS1906为例 workdir ...
- DEseq2差异表达分析
公司返回的结果,想自己跑一边试试,对照结果是不是一样,顺便检查自己的流程. 用的是Hisat2-featurecount-Deseq2流程 双端测序PE数据 建索引 hisat2-build -p 6 ...
- DESeq2筛选差异OTU及绘制火山图
1.DESeq包安装 install.packages("BiocManager") library(BiocManager) BiocManager::install(" ...
- HISAT2 - StringTie - DESeq2 pipeline 进行bulk RNA-seq
软件官网: Hisat2: Manual | HISAT2 StringTie:StringTie 文章:Transcript-level expression analysis of RNA-seq ...
- 生信入门(一)——DESeq2差异基因分析
生信(一)--DESeq2差异基因分析 文章目录 生信(一)--DESeq2差异基因分析 一.差异基因分析原理 二.代码实现 1.前提:安装DESeq2包 2.代码实现 三.小结 记录学习过程,共勉. ...
最新文章
- 每天九点十分开始每半小时一次执行一个cron_每天通勤4小时!西咸双城生活的上班族,不简单...
- Linux之Json20160705
- Python实现微信朋友签名云图项目
- 12.Bridge-桥接模式
- Java系统中如何拆分同步和异步
- 利用paramiko模块实现堡垒机+审计功能
- 欢迎给吾博客评分:如果遇见且有帮助,请帮忙打分
- p39最大子数组问题o(lgn)
- 学画画软件app推荐_一步一步教画画的app有哪些_2018手机画画软件哪个好呢_96u手游网...
- vue项目SEO优化
- 有钱任性的农夫山泉,被迫踏上IPO?
- 中望3D2022 参考几何体
- 魔百盒CM211-2系列(ZG/CH/YS)海思MV300H/310芯片-刷机固件及教程
- ppt太大发不了邮件怎么办?
- 电视盒子 android tv6,电视盒子到底应该怎么选?掌握这5点就行了
- Unity3D个人版更换黑色皮肤
- 经纬度5位数和6位数差多少_各大在线地图,使用的经纬度坐标为什么都精确到小数点之后第六位...
- 用syslog服务器收集java日志
- 中国柔性制造系统(FMS)市场发展动态及未来趋势预测报告2022~2028年
- 美国院线AMC真的没救了么?