FastQC使用与结果详细解读

一 、FastQC用法

  • 简单用法
fastqc -o outputfile inputfile
  • 重要参数
-o 结果文件输出路径,需要自己事先建立好文件夹,默认输出文件是压缩文件,加--noextract则不压缩
-t 设置所使用的核数
-f 强制指定输入文件格式,默认自动检测
-c 污染物选项,输入的是一个文件,格式是Name[Tab] Sequence,#开头的行是注释,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析
-q 会进入沉默模式,指定这个选项的时候,程序不会实时报告运行的状况

二、FastQC结果详细解读


输出结果有一个.html问价和一个压缩文件,.html文件用浏览器打开即可得到FastQC Report

  • Summary

    绿色:PASS
    黄色:WARN(需要查看结果)
    红色:FALL

  • Basic Statistics:基本信息统计

    Filename : 文件名
    File type : 文件类型
    Encoding : 测序平台的版本和相应的编码版本号,用于计算Phred反推error P时用
    Total Sequences : 输入文本的reads数量
    Sequence flagged as poor quality : 测序长度
    Sequence length : 测序长度
    %GC : 表示整体序列的GC含量,由于二代测序GC偏好性高,GC含量会高

  • Per base sequence quality:序列测序质量统计

    横轴为read长度,纵轴为质量得分,Q = -10*log(error P),Q20表示1%的错误率,Q30表示0.1%的错误率;
    柱状表示该位置所有序列的测序质量的统计,柱状是25%-75%区间质量分布,error bar 是10%-90%区间质量分布,蓝线表示平均数;
    一般要求所有位置的10%分位数大于20,即最多允许该位置10%的序列低于Q20。当任何碱基质量低于10,或者任何中位数低于25报告WARN,当任何碱基质量低于5或任何中位数低于20报告FALL。

  • Per tile sequence quality:每个tile的序列质量

    每个tile的测序质量,横坐标表示序列的长度位置从1到N,纵坐标是tile的编号,蓝色表示测序质量很好,颜色越红越不好

  • Per sequence quality scores:序列的测序质量

    横轴:Q值
    纵轴:每个Q值对应的read数
    用来查看碱基质量是否存在普遍过低的情况,绝大部分的碱基的Q值的峰值大于20,可判断序列质量较好,在质量较低的坐标位置出现另一个或多个峰,说明测序数据中有一部分序列质量较差,当峰值小于27(错误率20%)时报WARN,当峰值小于20(错误率1%)时报FALL

  • Per base sequence content:序列的测序质量

    横轴:各碱基位置
    纵轴:碱基百分比
    四条线四种颜色代表四种碱基在每个位置的平均含量(一个位置会测很多reads,然后求一个平均)
    一般来讲,A=T,C=G,但是由于刚开始测序仪状态不稳定,造成前几个碱基有波动。一般不是波动特别大的,像这里cut掉前5bp就好了。另外如果A、T或C、G间出现偏差,只要在1%以内都是可以接受的。

  • Per sequence GC content

    横轴:平均GC含量
    纵轴:每个GC含量对应的序列含量
    蓝线为系统计算得到的理论分布;红线为测量值,二者越接近越好
    偏离理论分布的reads超过15%时,报WARN,超过30%时,报FALL

曲线和蓝线不一致可能的情况有:

  1. 如果出现两个或多个峰值,表明测序数据里可能有其他来源的DNA序列污染,或者有接头的二聚体污染;
  2. 曲线形状的偏差往往时由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads);
  3. 形状接近正态分布但偏离理论分布的情况提示我们可能有系统偏差;
  • Per base N content:统计reads每个位置N的比率

    N是指一起不能识别ATCG时给出的结果,一般不会出现。但是如果出现并且量还很大,应该就是测序系统或者试剂的问题
    任意位置的N的比例超过5%,报WARN,超过20%,报FALL

  • Sequence Length Distribution:reads的长度分布

    理想情况下,测得的序列长度应该是相等的,实际情况上总有些偏差
    当reads长度不一致时报WARN,当有长度为0的read时报FALL

  • Sequence Diplication Levels:重复reads的次数统计

    横轴:duplication的次数
    纵轴:duplicated reads的数目(红线)
    以unique reads的总数作为100%,上图的情况中,相当于unique reads数目的15%的reads是观察到两次重复的,大约3%是观察到3次重复的,以此类推
    测序深度越深,越容易产生一定程度的重复,但重复程度很高,可能是有偏差的存在(如建库过程中的PCR duplication)。
    FastQC中用测序数据的前200000条reads统计其在全部数据中的重复情况
    当非unique的reads占总数的比例大于20%时,报WARN,大于50%时,报FALL

  • Overrepresented sequences:大量重复序列

如果有某个序列大量出现,就叫做over-represented,FastQC的标准是占全部reads的0.1%以上,为计算方便只取测序数据的前200000条reads进行统计,所以有可能over-represented reads不在里面。而>75bp的reads也是只取50bp。若在运行时加入-c contaminant file,出现的over-represented sequence会从contaminant file里面照匹配的hie(至少20bp且最多一个mismatch)
发现超总数0.1%的reads报WARN,超过总数1%报FALL

  • Adapter Content:接头含量

    表示序列中两端adapter的情况
    软件中内置了四种常用的测序接头序列,fastqc有一个参数-a可以自定义接头序列
    此图中使用的illumina universal adapter并未去除,后期再使用cutadapt去接头
    -Kmer content:重复短序列
    在序列中某些特征的短序列重复出现的次数

FastQC使用与结果详细解读相关推荐

  1. NLP突破性成果 BERT 模型详细解读 bert参数微调

    https://zhuanlan.zhihu.com/p/46997268 NLP突破性成果 BERT 模型详细解读 章鱼小丸子 不懂算法的产品经理不是好的程序员 ​关注她 82 人赞了该文章 Goo ...

  2. VINS-mono详细解读与实现

    VINS-mono详细解读 VINS-mono详细解读 前言 Vins-mono是香港科技大学开源的一个VIO算法,https://github.com/HKUST-Aerial-Robotics/V ...

  3. R回归模型输出结果详细解读:summary、call、residuals、Coefficients、Assessing Model Fit

    R回归模型输出结果详细解读:summary.call.residuals.Coefficients.Assessing Model Fit 目录 R回归模型输出结果详细解读:summary.call. ...

  4. MemCache超详细解读

    MemCache是什么 MemCache是一个自由.源码开放.高性能.分布式的分布式内存对象缓存系统,用于动态Web应用以减轻数据库的负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高 ...

  5. CSS 详细解读定位属性 position 以及参数

    Css 详细解读定位属性 position 以及参数 position 定位属性,是CSS中非常重要的属性.除了文档流布局,就是定位布局了.本来我对这个问题没有放在心上,毕竟写了这么多年的css,对p ...

  6. MemCache详细解读

    MemCache是什么 MemCache是一个自由.源码开放.高性能.分布式的分布式内存对象缓存系统,用于动态Web应用以减轻数据库的负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高 ...

  7. 直播 | 腾讯天衍实验室张子恒:详细解读天衍实验室知识图谱对齐技术

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  8. Madgwick算法详细解读

    Madgwick算法详细解读 极品巧克力 前言 接上一篇文章<Google Cardboard的九轴融合算法>. Madgwick算法是另外一种九轴融合的方法,广泛应用在旋翼飞行器上,效果 ...

  9. Transformer详细解读与预测实例记录

    文章目录 Transformer详细解读与预测实例记录 1.位置编码 1)输入部分: 2)位置编码部分: 2.多头注意力机制 1)基本注意力机制 2)transformer中的注意力 3.残差和Lay ...

最新文章

  1. vc6.0开发环境两个辅助工具
  2. MySQL删除同一个字段的多条记录
  3. 8.Hadoop的学习(Hadoop的配置--搭建完全分布式)
  4. 尴尬君正,是如何被“创新”带到沟里去的?
  5. spring cloud (一、服务注册demo_eureka)
  6. 牛逼!在IDEA里搞Spring Boot Mybatis反向工程,太爽咯~
  7. oracle-merge语法
  8. Wet Shark and Two Subsequences
  9. 常用英语高频词汇android,英语常用高频词汇
  10. Xcode13 新建项目 Products 目录显示方法
  11. 第二组第一次成团哈哈哈哈
  12. 计算机未来发展报告,2020-2026年中国电子计算机行业发展深度调研与未来趋势报告...
  13. 论文翻译:Anytime Stereo Image Depth Estimation on Mobile Devices
  14. python:超级画板
  15. document.getElementById与getElementsByName的区别(注意后者多个S)
  16. POSIX 标准介绍
  17. chromedriver、geckodriver、MicrosoftWebDriver、IEDriverServer和operadriver之间的恩怨纠葛
  18. 我天!中国科技原来有桎梏!道翰天琼认知智能机器人API平台接口为您揭秘。
  19. 3款完全免费线上视频会议工具
  20. PTA旅游规划(迪杰斯特拉算法)

热门文章

  1. 雷鸣的游戏人生(七) --- 如何谈一场失败的恋爱?
  2. php属于哪种语言,php是哪种类型的语言
  3. length()与lengthb()的区别
  4. 酷睿i7 8565u属于什么级别 i78565u相当于什么水平
  5. Nuscenes数据集转换voc_xml格式用于yolov4训练
  6. Cadence OrCAD Capture 查找功能详细介绍
  7. OA系统是什么意思?企业为什么要用OA办公系统软件?
  8. 项目管理之软件版本号
  9. 谷医堂与日俱进!谷医堂优化产品和提升服务两不误
  10. ERD Commander 2005 Boot CD 剖析及汉化试验