• 一、测序bias
  • 二、定量方法
  • 三、丰度计算方法
    • 1. reads Count
    • 2. RPKM/FPKM
    • 3. RPM/CPM
    • 4. TPM
  • 四、区别
  • 五、相关连接

一、测序bias

  1. 长度: 相同表达丰度的转录本,往往会由于其基因长度上的差异,导致测序获得的Read(Fregment)数不同。总的来说,越长的转录本,测得的Read(Fregment)数越多
  2. 测序深度: 由测序文库的不同大小而引来的差异。即同一个转录本,其测序深度越深,通过测序获得的Read(Fregment)数就越多。

raw count作为原始的read计数矩阵是一个绝对值,而绝对值的特点是规模不同(基因长度、测序深度),不可以比较。进行这些基因标准化方法的目的是将count矩阵转变为相对值,去除技术偏差的影响,使后续的差异分析具有统计学的意义。

二、定量方法

参考链接:https://www.meiwen.com.cn/subject/aegzsqtx.html

  • 基于比对:
    1.软件:RSEM、eXpress
    2.结果:FPKM,TPM两种
    3.过程:比对->产生bowtie.bam文件->导入RSEM或eXpress->产生每个拼接转录本的最大期望count数和一个基因对应多个转录本两个文件
  • 基于kmer:
    1.软件:kallisto、salmon
    2.结果:仅有TPM
    3.优点:快(转录本划分成kmer, 用kmer出现的次数来衡量转录本丰度)

ps: 分类

  1. 绝对定量:明确知道一个细胞中、或者是一定摩尔量的 RNA中,有多少条某种转录本(对样品进行细胞计数或者添加 spike-in)
  2. 相对定量:描述某基因的转录本占样本中所有转录本的百分比

三、丰度计算方法

参考链接:https://www.jianshu.com/p/c25e84383ae3

1. reads Count

  • 定义: 高通量测序中比对到exon上的reads数。可使用featureCount等软件进行计算。
  • 优点: 可有效说明该区域是否真的有表达及真实的表达丰度。能够近似呈现真实的表达情况,有利于实验验证。
  • 缺点: 由于exon长度不同,难以进行不同exon丰度比较;由于测序总数不同,难以对不同测序样本间进行比较。因此需要进行标准化使得不同样本以及不同基因可以进行比较。

2. RPKM/FPKM

  • 定义: Reads/Fragments Per Kilobase of exon model per Million mapped reads
  • 公式:
    ExonMappedReadsTotalMappedReads(Millions)∗ExonLength(KB)=ExonMappedReads∗109TotalMappedReads∗ExonLength\begin{aligned} &\frac{Exon Mapped Reads}{Total Mapped Reads (Millions) * Exon Length(KB)} \\ &=\frac{Exon Mapped Reads*10^9}{Total Mapped Reads * Exon Length}& \end{aligned} ​TotalMappedReads(Millions)∗ExonLength(KB)ExonMappedReads​=TotalMappedReads∗ExonLengthExonMappedReads∗109​​​
  • 优点: tophat-cufflinks流程固定,应用范围广。理论上,可弥补reads Count的缺点,消除样本间和基因间差异。适用于基因长度波动较大的测序方法,如lncRNA-seq测序,lncRNA的长度在200-100000碱基不等。
  • 缺点: 无生物学意义

3. RPM/CPM

  • 定义: Reads/Counts of exon model per Million mapped reads

  • 公式:
    ExonMappedReads∗106TotalMappedReads\frac{ExonMappedReads * 10^6}{TotalMappedReads} TotalMappedReadsExonMappedReads∗106​

  • 优点: 利于进行样本间比较。适合于产生的read读数不受基因长度影响的测序方法,比如miRNA-seq测序,miRNA的长度一般在20-24个碱基之间。

  • 缺点: 未消除exon长度造成的表达差异,难以进行样本内exon差异表达的比较。

4. TPM

  • 定义: Transcripts Per Kilobase of exon model per Million mapped reads

  • 公式:

    Ni为比对到第i个exon的reads数; Li为第i个exon的长度

  • 优点: 首先消除exon长度造成的差异,随后消除样本间测序总reads count不同造成的差异,有生物学意义

  • 缺点: 因为不是采用比对到基因组上的总reads count,所以特殊情况下不够准确。例如:某突变体对exon造成整体影响时,难以找出差异。

四、区别

参考链接:https://blog.csdn.net/linkequa/article/details/98901976

  • RPKM/FPKM与RPM: 是否考虑基因长度对read读数的影响

  • RPKM与FPKM: RPKM值适用于单末端RNA-seq实验数据,FPKM适用于双末端RNA-seq测序数据。对于双末端测序而言,如果一对paired-read都比对上了, 那么这一对paired-read称之为1个fragment, 2个read。

  • TPM与RPKM/FPKM:

    • 异: 从计算公式来说,唯一的不同是计算操作的顺序,TPM是先去除了基因长度的影响,而RPKM/FPKM是先去除测序深度的影响。也就是说,在给每个基因分reads时,RPKM保证全长的基因公平参加分配,分完回来后,除以自己的长度可能会吃亏或赚到,而TPM用平均基因长度去参与分reads,分到的就能代表平均表达水平。
    • 同: 一段基因中片段不同区域的转录活性是不一样,上述三个值用了平均转录活性去代表整个基因的转录活性,有可能带来bias(比如一个很长的基因,只有其中一小段活跃表达,这样RPKM值很低,但他的表达其实是很高的)

五、相关连接

  • 基因表达量计算与差异表达分析常见问题
  • 归一化算法比较

RNA-Seq丰度计算方法相关推荐

  1. CoverM 相对丰度计算方法分析

    CoverM 相对丰度计算方法分析 过程处理 结论 过程处理 软件逻辑中唯一出现 "relative_abundance" 的位置位于 generate_from_clap 其位于 ...

  2. 从metaWRAP quant_bins计算模块理解宏基因组分箱bin的丰度计算

    背景 在进行扩增子分析时,我们拿到的最关键的一个中间数据就是OTU/ASV表,在这个矩阵中,我们能获得我们的分析对象(OTU/ASV)在样本间的分布规律,并通过微生物群落的结构在样本之间的差异来解决一 ...

  3. Microbiome:环境样品中绝对定量菌群丰度的新方法

    文章目录 环境样品中微生物群落丰度的绝对定量 写在前面 摘要 背景 结果 结论 背景 方法 P.E.F合成spikes的设计 图 1 合成spike设计 土壤样品的特征 微生物学技术 图 2 DNA提 ...

  4. Coelho2021_GMGCv1 计算丰度的方法

    文章链接 复旦大学赵兴明领衔团队Nature发文构建全球微生物基因目录 Coelho, L.P., Alves, R., del Río, Á.R. et al. Towards the biogeo ...

  5. r语言 转录本结构及丰度_肠道菌群:宏转录组测序分析流程解读

    上回给大家讲述了16S测序分析 和 宏基因组测序分析,本期的宏转录组来啦~ 你知道吗?通过16S测序分析 和 宏基因组测序分析,我们只能够知道肠道菌群做好事或坏事的潜力,而并不知道它们此时此刻正在我们 ...

  6. RNA 25. SCI文章中估计组织浸润免疫细胞和基质细胞群的群体丰度(MCP-counter)

    点击关注,桓峰基因 今天来介绍一个利用基因表达估计组织浸润免疫细胞和基质细胞群的群体丰度的软件包--MCP-counter,亲试,非常好用. 桓峰基因的教程不但教您怎么使用,还会定期分析一些相关的文章 ...

  7. 一文掌握RNA seq,RNA seq课程大汇总

    RNA测序(RNA-seq)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具.RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录到RNA ...

  8. PlantCom:基于内参的宿主相关丰度定量分析揭示植物根系微生物组的微生物总量变化

    文章目录 基于内参的宿主相关丰度定量分析揭示植物根系微生物组的微生物总量变化 摘要 背景介绍 图1.植物根部微生物组定量丰度分析的优势和实验步骤 结果 spike-in内参质粒和HA-QAP方法的原理 ...

  9. Microbiome: 绝对定量环境样本细菌、真菌、真核群落丰度

    本文转载自Listenlii,己获授权. 研究背景 目前高通量测序只能得到微生物群落的相对丰度(relative abundance)而不能决定定量基因或细胞数量(absolute quantitat ...

  10. R统计绘图 | 物种组成堆叠柱形图(绝对/相对丰度)

    一.数据准备 数据使用的不同处理土壤样品的微生物组成数据,包含物种丰度,分类单元和样本分组数据.此数据为虚构,可用于练习,请不要作他用. # 1.1 设置工作路径 #knitr::opts_knit$ ...

最新文章

  1. AI创业哪家强?6大选择给你方向
  2. 开源性能测试工具JMeter快速入门(一)
  3. Angular2项目中浏览器拦截弹出窗口的解决方法
  4. matlab求借带参数的方程组
  5. 用window.location.href实现页面跳转
  6. 【OpenGL】顶点变换常用函数总结
  7. Hadoop中maptask数量的决定因素
  8. python的if和else、for、while语法_Python中的if、while、for 语法及实例
  9. php连接mysql MariaDB_PHP+MariaDB数据库操作基本技巧
  10. 电脑键盘部分按键失灵_华硕笔记本键盘有部分按键失灵 - 卡饭网
  11. Linux:进程间的相互作用(模拟两个进程,一个存钱,另一个取钱),进程共享内存,进程的互斥,进程加锁,c++和c实现
  12. Ubuntu使用Flux调节色温保护眼睛
  13. selenum登录163邮箱
  14. 不靠谱的InetAddress.isReachable,解决办法
  15. 软件工程专业四个方向
  16. 艾诗娜:红女巫 Ashina: The Red Witch Build.10280376 官方中文 免安装【209M】
  17. 360浏览器 | 如何从360浏览器中恢复你的密码
  18. Yii2 中添加全局函数
  19. 377.组合总和 Ⅳ
  20. plsql oracle默认用户名和密码,PLSQL Developer登录的默认密码介绍

热门文章

  1. 理解serialVersionUID是什么?有什么用?如何生成?
  2. 自动升级Golang版本
  3. 使用John the ripper破解弱密码
  4. 计算机课堂有趣的游戏,有趣的课堂游戏作文范文5篇
  5. WINRAR 4.00版注册方法
  6. streamlit部署到宝塔后域名访问出现Please wait...的解决方法
  7. 达人评测 华为watch gt2和gt选哪个好
  8. webpack打包UMD学习记录
  9. CDA学习笔记-指标
  10. SOC厂商--全志瑞芯微