一、测序bias
二、定量方法
三、丰度计算方法
- 1. reads Count
- 2. RPKM/FPKM
- 3. RPM/CPM
- 4. TPM
四、区别
五、相关连接

一、测序bias

长度： 相同表达丰度的转录本，往往会由于其基因长度上的差异，导致测序获得的Read（Fregment）数不同。总的来说，越长的转录本，测得的Read（Fregment）数越多
测序深度： 由测序文库的不同大小而引来的差异。即同一个转录本，其测序深度越深，通过测序获得的Read（Fregment）数就越多。

raw count作为原始的read计数矩阵是一个绝对值，而绝对值的特点是规模不同（基因长度、测序深度），不可以比较。进行这些基因标准化方法的目的是将count矩阵转变为相对值，去除技术偏差的影响，使后续的差异分析具有统计学的意义。

二、定量方法

参考链接：https://www.meiwen.com.cn/subject/aegzsqtx.html

基于比对：
1.软件：RSEM、eXpress
2.结果：FPKM，TPM两种
3.过程：比对->产生bowtie.bam文件->导入RSEM或eXpress->产生每个拼接转录本的最大期望count数和一个基因对应多个转录本两个文件
基于kmer：
1.软件：kallisto、salmon
2.结果：仅有TPM
3.优点：快（转录本划分成kmer, 用kmer出现的次数来衡量转录本丰度）

ps： 分类

绝对定量：明确知道一个细胞中、或者是一定摩尔量的 RNA中，有多少条某种转录本（对样品进行细胞计数或者添加 spike-in）
相对定量：描述某基因的转录本占样本中所有转录本的百分比

三、丰度计算方法

参考链接：https://www.jianshu.com/p/c25e84383ae3

1. reads Count

定义： 高通量测序中比对到exon上的reads数。可使用featureCount等软件进行计算。
优点： 可有效说明该区域是否真的有表达及真实的表达丰度。能够近似呈现真实的表达情况，有利于实验验证。
缺点： 由于exon长度不同，难以进行不同exon丰度比较；由于测序总数不同，难以对不同测序样本间进行比较。因此需要进行标准化使得不同样本以及不同基因可以进行比较。

2. RPKM/FPKM

定义： Reads/Fragments Per Kilobase of exon model per Million mapped reads
公式：
ExonMappedReadsTotalMappedReads(Millions)∗ExonLength(KB)=ExonMappedReads∗109TotalMappedReads∗ExonLength\begin{aligned} &\frac{Exon Mapped Reads}{Total Mapped Reads (Millions) * Exon Length(KB)} \\ &=\frac{Exon Mapped Reads*10^9}{Total Mapped Reads * Exon Length}& \end{aligned} TotalMappedReads(Millions)∗ExonLength(KB)ExonMappedReads=TotalMappedReads∗ExonLengthExonMappedReads∗109
优点： tophat-cufflinks流程固定，应用范围广。理论上，可弥补reads Count的缺点，消除样本间和基因间差异。适用于基因长度波动较大的测序方法，如lncRNA-seq测序，lncRNA的长度在200-100000碱基不等。
缺点： 无生物学意义

3. RPM/CPM

定义： Reads/Counts of exon model per Million mapped reads
公式：
ExonMappedReads∗106TotalMappedReads\frac{ExonMappedReads * 10^6}{TotalMappedReads} TotalMappedReadsExonMappedReads∗106
优点： 利于进行样本间比较。适合于产生的read读数不受基因长度影响的测序方法，比如miRNA-seq测序，miRNA的长度一般在20-24个碱基之间。
缺点： 未消除exon长度造成的表达差异，难以进行样本内exon差异表达的比较。

4. TPM

定义： Transcripts Per Kilobase of exon model per Million mapped reads
公式：

Ni为比对到第i个exon的reads数； Li为第i个exon的长度
优点： 首先消除exon长度造成的差异，随后消除样本间测序总reads count不同造成的差异，有生物学意义
缺点： 因为不是采用比对到基因组上的总reads count，所以特殊情况下不够准确。例如：某突变体对exon造成整体影响时，难以找出差异。

四、区别

参考链接：https://blog.csdn.net/linkequa/article/details/98901976

RPKM/FPKM与RPM： 是否考虑基因长度对read读数的影响
RPKM与FPKM： RPKM值适用于单末端RNA-seq实验数据，FPKM适用于双末端RNA-seq测序数据。对于双末端测序而言，如果一对paired-read都比对上了, 那么这一对paired-read称之为1个fragment, 2个read。
TPM与RPKM/FPKM：
- 异：从计算公式来说，唯一的不同是计算操作的顺序，TPM是先去除了基因长度的影响，而RPKM/FPKM是先去除测序深度的影响。也就是说，在给每个基因分reads时，RPKM保证全长的基因公平参加分配，分完回来后，除以自己的长度可能会吃亏或赚到，而TPM用平均基因长度去参与分reads，分到的就能代表平均表达水平。
- 同：一段基因中片段不同区域的转录活性是不一样，上述三个值用了平均转录活性去代表整个基因的转录活性，有可能带来bias（比如一个很长的基因，只有其中一小段活跃表达，这样RPKM值很低，但他的表达其实是很高的）

五、相关连接

基因表达量计算与差异表达分析常见问题
归一化算法比较

RNA-Seq丰度计算方法相关推荐

CoverM 相对丰度计算方法分析
CoverM 相对丰度计算方法分析过程处理结论过程处理软件逻辑中唯一出现 "relative_abundance" 的位置位于 generate_from_clap 其位于 ...
从metaWRAP quant_bins计算模块理解宏基因组分箱bin的丰度计算
背景在进行扩增子分析时,我们拿到的最关键的一个中间数据就是OTU/ASV表,在这个矩阵中,我们能获得我们的分析对象(OTU/ASV)在样本间的分布规律,并通过微生物群落的结构在样本之间的差异来解决一 ...
Microbiome：环境样品中绝对定量菌群丰度的新方法
文章目录环境样品中微生物群落丰度的绝对定量写在前面摘要背景结果结论背景方法 P.E.F合成spikes的设计图 1 合成spike设计土壤样品的特征微生物学技术图 2 DNA提 ...
Coelho2021_GMGCv1 计算丰度的方法
文章链接复旦大学赵兴明领衔团队Nature发文构建全球微生物基因目录 Coelho, L.P., Alves, R., del Río, Á.R. et al. Towards the biogeo ...
r语言转录本结构及丰度_肠道菌群：宏转录组测序分析流程解读
上回给大家讲述了16S测序分析和宏基因组测序分析,本期的宏转录组来啦~ 你知道吗?通过16S测序分析和宏基因组测序分析,我们只能够知道肠道菌群做好事或坏事的潜力,而并不知道它们此时此刻正在我们 ...
RNA 25. SCI文章中估计组织浸润免疫细胞和基质细胞群的群体丰度(MCP-counter)
点击关注,桓峰基因今天来介绍一个利用基因表达估计组织浸润免疫细胞和基质细胞群的群体丰度的软件包--MCP-counter,亲试,非常好用. 桓峰基因的教程不但教您怎么使用,还会定期分析一些相关的文章 ...
一文掌握RNA seq，RNA seq课程大汇总
RNA测序(RNA-seq)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具.RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录到RNA ...
PlantCom：基于内参的宿主相关丰度定量分析揭示植物根系微生物组的微生物总量变化
文章目录基于内参的宿主相关丰度定量分析揭示植物根系微生物组的微生物总量变化摘要背景介绍图1.植物根部微生物组定量丰度分析的优势和实验步骤结果 spike-in内参质粒和HA-QAP方法的原理 ...
Microbiome: 绝对定量环境样本细菌、真菌、真核群落丰度
本文转载自Listenlii,己获授权. 研究背景目前高通量测序只能得到微生物群落的相对丰度(relative abundance)而不能决定定量基因或细胞数量(absolute quantitat ...
R统计绘图 | 物种组成堆叠柱形图(绝对/相对丰度)
一.数据准备数据使用的不同处理土壤样品的微生物组成数据,包含物种丰度,分类单元和样本分组数据.此数据为虚构,可用于练习,请不要作他用. # 1.1 设置工作路径 #knitr::opts_knit$ ...

RNA-Seq丰度计算方法