FastQC使用与结果详细解读
FastQC使用与结果详细解读
一 、FastQC用法
- 简单用法
fastqc -o outputfile inputfile
- 重要参数
-o 结果文件输出路径,需要自己事先建立好文件夹,默认输出文件是压缩文件,加--noextract则不压缩
-t 设置所使用的核数
-f 强制指定输入文件格式,默认自动检测
-c 污染物选项,输入的是一个文件,格式是Name[Tab] Sequence,#开头的行是注释,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析
-q 会进入沉默模式,指定这个选项的时候,程序不会实时报告运行的状况
二、FastQC结果详细解读
输出结果有一个.html问价和一个压缩文件,.html文件用浏览器打开即可得到FastQC Report
Summary
绿色:PASS
黄色:WARN(需要查看结果)
红色:FALLBasic Statistics:基本信息统计
Filename : 文件名
File type : 文件类型
Encoding : 测序平台的版本和相应的编码版本号,用于计算Phred反推error P时用
Total Sequences : 输入文本的reads数量
Sequence flagged as poor quality : 测序长度
Sequence length : 测序长度
%GC : 表示整体序列的GC含量,由于二代测序GC偏好性高,GC含量会高Per base sequence quality:序列测序质量统计
横轴为read长度,纵轴为质量得分,Q = -10*log(error P),Q20表示1%的错误率,Q30表示0.1%的错误率;
柱状表示该位置所有序列的测序质量的统计,柱状是25%-75%区间质量分布,error bar 是10%-90%区间质量分布,蓝线表示平均数;
一般要求所有位置的10%分位数大于20,即最多允许该位置10%的序列低于Q20。当任何碱基质量低于10,或者任何中位数低于25报告WARN,当任何碱基质量低于5或任何中位数低于20报告FALL。Per tile sequence quality:每个tile的序列质量
每个tile的测序质量,横坐标表示序列的长度位置从1到N,纵坐标是tile的编号,蓝色表示测序质量很好,颜色越红越不好Per sequence quality scores:序列的测序质量
横轴:Q值
纵轴:每个Q值对应的read数
用来查看碱基质量是否存在普遍过低的情况,绝大部分的碱基的Q值的峰值大于20,可判断序列质量较好,在质量较低的坐标位置出现另一个或多个峰,说明测序数据中有一部分序列质量较差,当峰值小于27(错误率20%)时报WARN,当峰值小于20(错误率1%)时报FALLPer base sequence content:序列的测序质量
横轴:各碱基位置
纵轴:碱基百分比
四条线四种颜色代表四种碱基在每个位置的平均含量(一个位置会测很多reads,然后求一个平均)
一般来讲,A=T,C=G,但是由于刚开始测序仪状态不稳定,造成前几个碱基有波动。一般不是波动特别大的,像这里cut掉前5bp就好了。另外如果A、T或C、G间出现偏差,只要在1%以内都是可以接受的。Per sequence GC content
横轴:平均GC含量
纵轴:每个GC含量对应的序列含量
蓝线为系统计算得到的理论分布;红线为测量值,二者越接近越好
偏离理论分布的reads超过15%时,报WARN,超过30%时,报FALL
曲线和蓝线不一致可能的情况有:
- 如果出现两个或多个峰值,表明测序数据里可能有其他来源的DNA序列污染,或者有接头的二聚体污染;
- 曲线形状的偏差往往时由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads);
- 形状接近正态分布但偏离理论分布的情况提示我们可能有系统偏差;
Per base N content:统计reads每个位置N的比率
N是指一起不能识别ATCG时给出的结果,一般不会出现。但是如果出现并且量还很大,应该就是测序系统或者试剂的问题
任意位置的N的比例超过5%,报WARN,超过20%,报FALLSequence Length Distribution:reads的长度分布
理想情况下,测得的序列长度应该是相等的,实际情况上总有些偏差
当reads长度不一致时报WARN,当有长度为0的read时报FALLSequence Diplication Levels:重复reads的次数统计
横轴:duplication的次数
纵轴:duplicated reads的数目(红线)
以unique reads的总数作为100%,上图的情况中,相当于unique reads数目的15%的reads是观察到两次重复的,大约3%是观察到3次重复的,以此类推
测序深度越深,越容易产生一定程度的重复,但重复程度很高,可能是有偏差的存在(如建库过程中的PCR duplication)。
FastQC中用测序数据的前200000条reads统计其在全部数据中的重复情况
当非unique的reads占总数的比例大于20%时,报WARN,大于50%时,报FALLOverrepresented sequences:大量重复序列
如果有某个序列大量出现,就叫做over-represented,FastQC的标准是占全部reads的0.1%以上,为计算方便只取测序数据的前200000条reads进行统计,所以有可能over-represented reads不在里面。而>75bp的reads也是只取50bp。若在运行时加入-c contaminant file,出现的over-represented sequence会从contaminant file里面照匹配的hie(至少20bp且最多一个mismatch)
发现超总数0.1%的reads报WARN,超过总数1%报FALL
- Adapter Content:接头含量
表示序列中两端adapter的情况
软件中内置了四种常用的测序接头序列,fastqc有一个参数-a可以自定义接头序列
此图中使用的illumina universal adapter并未去除,后期再使用cutadapt去接头
-Kmer content:重复短序列
在序列中某些特征的短序列重复出现的次数
FastQC使用与结果详细解读相关推荐
- NLP突破性成果 BERT 模型详细解读 bert参数微调
https://zhuanlan.zhihu.com/p/46997268 NLP突破性成果 BERT 模型详细解读 章鱼小丸子 不懂算法的产品经理不是好的程序员 关注她 82 人赞了该文章 Goo ...
- VINS-mono详细解读与实现
VINS-mono详细解读 VINS-mono详细解读 前言 Vins-mono是香港科技大学开源的一个VIO算法,https://github.com/HKUST-Aerial-Robotics/V ...
- R回归模型输出结果详细解读:summary、call、residuals、Coefficients、Assessing Model Fit
R回归模型输出结果详细解读:summary.call.residuals.Coefficients.Assessing Model Fit 目录 R回归模型输出结果详细解读:summary.call. ...
- MemCache超详细解读
MemCache是什么 MemCache是一个自由.源码开放.高性能.分布式的分布式内存对象缓存系统,用于动态Web应用以减轻数据库的负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高 ...
- CSS 详细解读定位属性 position 以及参数
Css 详细解读定位属性 position 以及参数 position 定位属性,是CSS中非常重要的属性.除了文档流布局,就是定位布局了.本来我对这个问题没有放在心上,毕竟写了这么多年的css,对p ...
- MemCache详细解读
MemCache是什么 MemCache是一个自由.源码开放.高性能.分布式的分布式内存对象缓存系统,用于动态Web应用以减轻数据库的负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高 ...
- 直播 | 腾讯天衍实验室张子恒:详细解读天衍实验室知识图谱对齐技术
「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...
- Madgwick算法详细解读
Madgwick算法详细解读 极品巧克力 前言 接上一篇文章<Google Cardboard的九轴融合算法>. Madgwick算法是另外一种九轴融合的方法,广泛应用在旋翼飞行器上,效果 ...
- Transformer详细解读与预测实例记录
文章目录 Transformer详细解读与预测实例记录 1.位置编码 1)输入部分: 2)位置编码部分: 2.多头注意力机制 1)基本注意力机制 2)transformer中的注意力 3.残差和Lay ...
最新文章
- vc6.0开发环境两个辅助工具
- MySQL删除同一个字段的多条记录
- 8.Hadoop的学习(Hadoop的配置--搭建完全分布式)
- 尴尬君正,是如何被“创新”带到沟里去的?
- spring cloud (一、服务注册demo_eureka)
- 牛逼!在IDEA里搞Spring Boot Mybatis反向工程,太爽咯~
- oracle-merge语法
- Wet Shark and Two Subsequences
- 常用英语高频词汇android,英语常用高频词汇
- Xcode13 新建项目 Products 目录显示方法
- 第二组第一次成团哈哈哈哈
- 计算机未来发展报告,2020-2026年中国电子计算机行业发展深度调研与未来趋势报告...
- 论文翻译:Anytime Stereo Image Depth Estimation on Mobile Devices
- python:超级画板
- document.getElementById与getElementsByName的区别(注意后者多个S)
- POSIX 标准介绍
- chromedriver、geckodriver、MicrosoftWebDriver、IEDriverServer和operadriver之间的恩怨纠葛
- 我天!中国科技原来有桎梏!道翰天琼认知智能机器人API平台接口为您揭秘。
- 3款完全免费线上视频会议工具
- PTA旅游规划(迪杰斯特拉算法)