FastQC是一个跨平台的应用程序,用java编写,它可以快速的对测序数据进行质量评估。理论上讲,它应该在java运行时环境下进行操作。该软件无需编译,可直接运行。

1.软件下载

FastQC下载地址:

http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc

选择FastQC v0.11.9 (Win/Linux zip file)版本,使用以下命令行进行下载安装:

wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip

得到fastqc_v0.11.9.zip压缩包

解压:unzip fastqc_v0.11.9.zip

进入FastQC,并查看help文件:

cd FastQC

./fastqc -h

发现没有执行权限,使用下面命令增加可执行权限:

chmod 755 fastqc

再次查看help文件:

现在可以正常使用了。

现在给大家介绍一下该软件常用的几个主要参数:

-o –outdir:在指定的输出目录中创建所有输出文件,该目录必须存在

-t –threads:线程数

-f –format:输入文件格式,可以是bam,sam,bam_mapped,sam_mapped 和fastq这些格式的文件

将该软件加入环境变量之后,每次运行可以不加绝对路径。

今天我们以fastq文件格式为例: SRR7279481_1.fastq.gz和SRR7279481_2.fastq.gz

先创建输出结果所在目录: mkdir quality_control

运行fastqc:

fastqc -o ./quality_control -t 5 SRR7279481_1.fastq.gz SRR7279481_2.fastq.gz

运行结束后,生成两个压缩文件,两个.html网页文件

在浏览器中打开SRR7279481_1_fastqc.html,打开该文件,显示为这样:

FastQC report中summary为测序数据的整体质量情况:为合格,为警告,为不合格。接下来,对每个图进行简单介绍:

a.基本信息

Filename:进行质控的文件名

File type:文件类型

Encoding:测序平台的版本和相应的编码版本号

Total Sequences:reads数量

Sequences flagged as poor quality:标记为质量差的序列数目

Sequence length:测序长度

%GC:整体序列GC含量

#整体合格

b.序列测序质量统计

横轴表示被测序的序列从第1个碱基到第144个碱基序号,纵轴表示对应碱基的质量得分,20表示对应碱基错误率为0.01,30表示对应碱基错误率为0.01。图中蓝色实线表示各个碱基质量得分平均值的连线。

c.每条序列质量得分

横轴是0-36,代表Q值(序列的质量值)

纵轴代表每个Q值对应的reads数目,在Q=34时,对应reads数最多,结果合格。

d.碱基分布图

横轴是1-144 bp;纵轴是百分比,红线代表T,蓝线代表C,绿线代表A,黑线代表G,理论上A的含量等于T,C的含量等于G。该结构警告一次。

e.序列GC含量分布

横轴表示平均GC含量百分比,纵轴表示特定GC含量百分比下对应的reads数量。蓝线为理论分布,红线为实际分布,两者越接近越好。该结果不合格。

f. N含量

当测序仪器对某条reads某个位置不能对应到ATCG上时,便会产生“N”,统计所有reads每个位置“N”的比例。

g.序列长度分布

测序仪每次测出来的长度在理论上应该是完全相等的,但是总会有一些偏差。该结果警告一次,结果不太理想。图中表示150bp是主要长度,但也存在其它长度。

h.重复序列水平

统计重复序列的频率。横坐标是序列重复的次数,纵坐标是重复序列的数目。红线表示重复序列,蓝线表示总的序列。

i. 过表达序列

如果有某个序列大量出现,就叫做 over-represented。

j.接头含量

横轴是1-139 bp;纵轴是adapter百分比

大家对测序数据质控如果有什么问题,可以私我。欢迎提问,交流。

fastq质量值_高通量测序数据的质量控制FastQC相关推荐

  1. 高通量测序数据质控神器Trimmomatic

    简介 高通量测序下机的原始数据中存在一些低质量数据.接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节.Trimmomatic就 ...

  2. 使用 Docker 分析高通量测序数据

    端午节假期,先祝各位 Bio IT 的爱好者们,节日快乐! 做生信的童鞋想要学习 Docker,或者使用 Docker+Pipeline 封装自己的一套数据分析流程,相信一定不能错过胡博强老师在201 ...

  3. 从NCBI当中SRA数据库中下载高通量测序数据

    从NCBI当中SRA数据库中下载高通量测序数据 NCBI sra 数据下载 用迅雷替代官方的prefetch批量下载SRA测序数据,更快更稳定! 用别人的数据,发自己的文章 由于大多数杂志在文章发表前 ...

  4. fastq质量值_微生物组16S rRNA数据分析小结:从fastq测序数据到OTU table

    推荐阅读 1.ggplot2绘制曼哈顿图示例2.phyloseq | 用 R 分析微生物组数据及可视化3.R语言PCA分析教程 | Principal Component Methods in R4. ...

  5. mysql like反义_[转载]关于小RNA高通量测序数据分析方法的研究

    1 引言 小RNA(small RNAs)主要指长度在18-30nt的一类非编码RNA(ncRNAs),在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNAs,miRNAs) ...

  6. fastq质量值_FASTQ格式解释和质量评估

    FASTQ文件格式和命名 高通量测序之后用于下游分析的数据一般存储在FASTQ文件中.为了节省空间,又不影响下游使用,也一般用gzip压缩的格式. 单端测序每个文库只返回一个FASTQ文件,双端测序两 ...

  7. MPB:沈阳生态所李琪组-​土壤线虫群落DNA提取、扩增及高通量测序

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  8. 表观调控高通量测序分析培训开课啦

    在广大粉丝的期待下,<生信宝典>联合<宏基因组>在2018年4月14日在北京鼓楼推出<ChIP系列高通量测序分析专题培训>,为大家提供一条走进生信大门的捷径.为同行 ...

  9. 高通量测序数据分析:RNA-seq

    本文围绕RNA-seq学习路线进行生信入门,主要内容有: ☆ RNA-seq方法原理 ☆ RNA-seq的生物信息分析 1.数据获取 测序数据下载与处理(SRA Toolkit) 测序数据质控与过滤( ...

  10. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

最新文章

  1. 数据库综合设计java_JAVA程序综合设计数据库设计_
  2. cas单点登录原理碎碎念
  3. 蓝牙-HCI错误码列表
  4. vue 微信支付的坑_vue_模式下h5微信支付
  5. 首款Android 16旗舰敲定!谷歌Pixel 6系列将获5年Android更新
  6. 微信“拍一拍”的后悔药来了!手滑拍了老板终于有救了
  7. C#里的三种定时器类型
  8. OSI七(八)层结构 TCP/IP 4层结构
  9. 微信开发者工具下载安装教程
  10. Android问题解决--“StorageManager.getVolumeList NullPointerException”空指针再现,getExternalDirs
  11. C++ gbk与utf8互转
  12. 实对称矩阵一定要用正交矩阵来对角化吗?
  13. 小学教师计算机国培培训总结,小学教师国培计划研修总结
  14. echart--axisLabel中值太长不自动换行
  15. 【软件测试】软件测试基础知识
  16. 代理对推广网站的四个作用
  17. 轻易成就难事的 “ 美好心灵 ” 之力
  18. win10系统解决Outlook2007不能记住密码问题
  19. web前端期末大作业:个人网站设计——响应式个人小站网站HTML+CSS+JavaScript
  20. java timertask 销毁_java中TimerTask 如何才能停止呢

热门文章

  1. 【数学建模】基于matlab GUI弱肉强食问题—Volterra 模型【含Matlab源码 1502期】
  2. 机器学习 声音 分角色_机器学习对儿童电视节目角色的痴迷
  3. 深度强化学习从入门到大师_深度学习大师的经验教训
  4. 如何将一个字典转换为玲阶矩阵_每日一课 | Python循环字典
  5. mysql角色管理权限管理_mysql权限角色管理
  6. 鼠标悬停显示不同内容_数字标牌的A到Z:C代表CMS(内容管理系统)
  7. VMware安装Ubuntu配置NAT模式下静态IP,解决访问外网问题
  8. 英特尔在移动时代的衰落或许不会影响苹果
  9. JS工具对象 DATE 方法
  10. [React-Native]环境配置amp;HelloWorld