GC bias GC偏好
GC偏好
1条回复
GC偏好
测序中的GC偏好指的是基因组上GC含量在50%左右的区域更容易被测到,产生的reads更多,这些区域的覆盖度更高,在高GC或者低GC区域,不容易被测到,产生较少的reads,这些区域的覆盖度更少。用基因组单位长度的bin中的GC含量作为横坐标,覆盖度作为纵坐标作图,可以明显的看到该趋势。这种趋势在100kb为单位的bin中依然存在。
如图A中可以看出随着GC含量的增加,counts是先增加后减少,bin的大小为10kb。图C可以看出大部分片断的GC含量0.4到0.6之间。
GC偏好也存在其他地方,比如基因编码区内密码子的最后一位,C碱基往往占优势;基因的长度和GC含量成相关性;Aquifex aeolicus 的基因组整体GC含量是43%,而核糖体RNA操纵子的GC含量是65%。
如图,鸡(Gallus_gallus-5.0)基因组的GC含量与基因密度之间的散点图和拟合曲线,相关性非常明显。
影响
举个例子,1)在检测拷贝数的时候,GC含量低或者高的区域,其覆盖度小于GC含量中等的,但不意味着仅仅根据测序的覆盖度,就认为GC含量中等的拷贝数比高/低GC含量区域的高。
2)在做RNA测序分析的时候,GC含量高/低的区域reads数少,并不一定说明这个基因的表达量低。
3)在做基因组拼接的时候,因为GC偏好的存在,高/低GC含量的区域被测的少,这些区域的拼接难度就较大。
来源
测序中GC偏好不均衡的结果来源于多个因素,比如对文库进行PCR扩增的时候,cluster簇扩增的时候,测序的时候,不同实验室之间,实验批次之间,不同的样本类型等等。这些因素都会影响测序数据。
校正
因为GC偏好可能会对特定的分析结果造成影响,放大变异影响真实信息,所以需要校正。有一种简单的校正,就是先统计每个GC含量(0, 1, 2, 3,…, 100%)下的特定bin的平均覆盖度,再计算所有bin的平均覆盖度,用来校正测序得到的覆盖度。
特定bin校正后的覆盖度 = 该bin的原始覆盖度 *(所有bin的平均覆盖度/与该bin的有相同GC含量的所有bin的平均覆盖度)
还有算法计算了每个bin的GC含量与观察到的depth之间的关联性,拟合出一条趋势线,用原始的覆盖度减去该趋势。
结果
有研究表明在需要考虑GC偏好带来的影响的实验中,通过GC校正能显著改善结果。
参考:
Yoon, Seungtai, et al. “Sensitive and accurate detection of copy number variants using read depth of coverage.” Genome research 19.9 (2009): 1586-1592.
Benjamini, Yuval, and Terence P. Speed. “Summarizing and correcting the GC content bias in high-throughput sequencing.” Nucleic acids research 40.10 (2012): e72-e72.
Tilak, Marie-Ka, et al. “Illumina library preparation for sequencing the GC-rich fraction of heterogeneous genomic DNA.” Genome biology and evolution 10.2 (2018): 616-622.
https://en.wikipedia.org/wiki/GC-content
https://www.sciencedirect.com/topics/neuroscience/gc-content
GC bias GC偏好相关推荐
- minor gc和Major GC,Full GC的触发条件
Minor GC Minor GC指新生代GC,即发生在新生代(包括Eden区和Survivor区)的垃圾回收操作,当新生代无法为新生对象分配内存空间的时候,会触发Minor GC.因为新生代中大多数 ...
- 【Java 虚拟机原理】垃圾回收算法 ( 设置 JVM 命令参数输出 GC 日志 | GC 日志输出示例 | GC 日志分析 )
文章目录 一.设置 JVM 命令参数输出 GC 日志 二.GC 日志示例 三.GC 日志分析 一.设置 JVM 命令参数输出 GC 日志 在 IntelliJ IDEA 的启动参数中设置 -XX:+P ...
- gc日志一般关注什么_记一次生产频繁出现 Full GC 的 GC日志图文详解
场景描述 相信大家都了解 jps.jmap.jstack 等常用 java 堆栈输出命令,有过 dump.gc 分析的经验,面试中会经常被问到有关 JVM 问题,比如你是否了解你的程序在生产环境的基础 ...
- 34.对象 GC,GC属性,影响GC的因素,GC步骤,GC算法,安全区/安全区域,新生代,老年代等介绍
34.对象 GC,GC属性,影响GC的因素,GC步骤,GC算法,安全区/安全区域,新生代,老年代等介绍 34.1.GC属性 34.2.影响GC的因素 34.3.GC步骤 34.3.1.Mark 34. ...
- 30.jvm.gc(GC之详解CMS收集过程和日志分析)
30.jvm.gc(GC之详解CMS收集过程和日志分析) 30.1.话题引入 30.2.ParNew and CMS 30.3.日志 30.3.1.GC日志初体验 30.3.2.Minor GC 30 ...
- 4、JVM垃圾回收机制、新生代的GC、GC(Minor GC、FullGC)、GC日志、JVM参数选项、元空间(笔记)
4.JVM垃圾回收机制 4.1.新生代的GC 4.1.1.串行GC(SerialGC) 4.1.2.并行回收GC(Parallel Scavenge) 4.1.3.并行GC(ParNew) 4.2.G ...
- Minor GC,Major GC,Full GC -- hotspot VM GC讲解
针对HotSpot VM的实现,它里面的GC其实准确分类只有两大种: Partial GC:并不收集整个GC堆的模式 Young GC:只收集young gen的GC Old GC:只收集old ge ...
- GC之七--gc日志分析工具
性能测试排查定位问题,分析调优过程中,会遇到要分析gc日志,人肉分析gc日志有时比较困难,相关图形化或命令行工具可以有效地帮助辅助分析. Gc日志参数 通过在tomcat启动脚本中添加相关参数生成gc ...
- fullgc问题解决:Full GC (Metadata GC Threshold)
#问题描述 在工作过程中,遇到一个问题:Tomcat在重启或者发布的时候,会有多次的full GC. 笔者使用的版本说明: Tomcat7.0.25 JDK8 首先排查JVM的问题,就要把GC日志打开 ...
- gc System.gc() fullGC
当 System.gc() 或 Runtime.getRuntime().gc()等API被调用时,将触发完整的GC事件.在GC完成之前,整个JVM将冻结(即正在运行的所有服务将被暂停),通常完整的G ...
最新文章
- Linux下显示IP地址所在地信息的小工具——nali
- Quartz整合Spring
- 如何评价一个开源项目——价值流网络
- python spark dataframe_pyspark dataframe 常用操作
- spring批量写入mysql数据库_MyBatis-spring和spring JDBC批量插入Mysql的效率比较
- 一种快速的未登陆词识别方法(原理和实现)
- 数据库面试要点:关于MySQL数据库千万级数据查询和存储
- python实现web服务器_python实现静态web服务器
- 双目测距(六)--三维重建及UI显示
- 转载Java 反射机制
- github创建仓库,往github上上传自己的项目
- JDBC09 CLOB文本大对象
- redies用途和使用场景
- android 点击按钮打开浏览器网页
- 利用selenium webdriver下载不同类型的文件(pdf,txt等等)
- OA会议 04 (查询会议签字)
- 培养创造性思维的20个技巧!
- [干货]网页端、移动端导航设计模式全解
- 【C语言小题】分数求和
- 基于PP-TSM+BMN+LSTM实现足球精彩时刻剪辑_副本1