fastq质量值_高通量测序数据的质量控制FastQC

FastQC是一个跨平台的应用程序，用java编写，它可以快速的对测序数据进行质量评估。理论上讲，它应该在java运行时环境下进行操作。该软件无需编译，可直接运行。

1.软件下载

FastQC下载地址：

http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc

选择FastQC v0.11.9 (Win/Linux zip file)版本，使用以下命令行进行下载安装：

wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip

得到fastqc_v0.11.9.zip压缩包

解压：unzip fastqc_v0.11.9.zip

进入FastQC，并查看help文件:

cd FastQC

./fastqc -h

发现没有执行权限，使用下面命令增加可执行权限：

chmod 755 fastqc

再次查看help文件:

现在可以正常使用了。

现在给大家介绍一下该软件常用的几个主要参数：

-o –outdir：在指定的输出目录中创建所有输出文件，该目录必须存在

-t –threads：线程数

-f –format:输入文件格式，可以是bam,sam,bam_mapped,sam_mapped 和fastq这些格式的文件

将该软件加入环境变量之后，每次运行可以不加绝对路径。

今天我们以fastq文件格式为例: SRR7279481_1.fastq.gz和SRR7279481_2.fastq.gz

先创建输出结果所在目录: mkdir quality_control

运行fastqc:

fastqc -o ./quality_control -t 5 SRR7279481_1.fastq.gz SRR7279481_2.fastq.gz

运行结束后，生成两个压缩文件，两个.html网页文件

在浏览器中打开SRR7279481_1_fastqc.html,打开该文件，显示为这样：

FastQC report中summary为测序数据的整体质量情况：为合格，为警告，为不合格。接下来，对每个图进行简单介绍：

a.基本信息

Filename：进行质控的文件名

File type：文件类型

Encoding：测序平台的版本和相应的编码版本号

Total Sequences：reads数量

Sequences flagged as poor quality：标记为质量差的序列数目

Sequence length：测序长度

%GC：整体序列GC含量

#整体合格

b.序列测序质量统计

横轴表示被测序的序列从第1个碱基到第144个碱基序号，纵轴表示对应碱基的质量得分，20表示对应碱基错误率为0.01，30表示对应碱基错误率为0.01。图中蓝色实线表示各个碱基质量得分平均值的连线。

c.每条序列质量得分

横轴是0-36，代表Q值(序列的质量值)

纵轴代表每个Q值对应的reads数目，在Q=34时，对应reads数最多，结果合格。

d.碱基分布图

横轴是1-144 bp；纵轴是百分比，红线代表T,蓝线代表C,绿线代表A,黑线代表G,理论上A的含量等于T,C的含量等于G。该结构警告一次。

e.序列GC含量分布

横轴表示平均GC含量百分比，纵轴表示特定GC含量百分比下对应的reads数量。蓝线为理论分布，红线为实际分布，两者越接近越好。该结果不合格。

f. N含量

当测序仪器对某条reads某个位置不能对应到ATCG上时，便会产生“N”,统计所有reads每个位置“N”的比例。

g.序列长度分布

测序仪每次测出来的长度在理论上应该是完全相等的，但是总会有一些偏差。该结果警告一次，结果不太理想。图中表示150bp是主要长度，但也存在其它长度。

h.重复序列水平

统计重复序列的频率。横坐标是序列重复的次数，纵坐标是重复序列的数目。红线表示重复序列，蓝线表示总的序列。

i. 过表达序列

如果有某个序列大量出现，就叫做 over-represented。

j.接头含量

横轴是1-139 bp；纵轴是adapter百分比

大家对测序数据质控如果有什么问题，可以私我。欢迎提问，交流。

fastq质量值_高通量测序数据的质量控制FastQC相关推荐

高通量测序数据质控神器Trimmomatic
简介高通量测序下机的原始数据中存在一些低质量数据.接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节.Trimmomatic就 ...
使用 Docker 分析高通量测序数据
端午节假期,先祝各位 Bio IT 的爱好者们,节日快乐! 做生信的童鞋想要学习 Docker,或者使用 Docker+Pipeline 封装自己的一套数据分析流程,相信一定不能错过胡博强老师在201 ...
从NCBI当中SRA数据库中下载高通量测序数据
从NCBI当中SRA数据库中下载高通量测序数据 NCBI sra 数据下载用迅雷替代官方的prefetch批量下载SRA测序数据,更快更稳定! 用别人的数据,发自己的文章由于大多数杂志在文章发表前 ...
fastq质量值_微生物组16S rRNA数据分析小结：从fastq测序数据到OTU table
推荐阅读 1.ggplot2绘制曼哈顿图示例2.phyloseq | 用 R 分析微生物组数据及可视化3.R语言PCA分析教程 | Principal Component Methods in R4. ...
mysql like反义_[转载]关于小RNA高通量测序数据分析方法的研究
1 引言小RNA(small RNAs)主要指长度在18-30nt的一类非编码RNA(ncRNAs),在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNAs,miRNAs) ...
fastq质量值_FASTQ格式解释和质量评估
FASTQ文件格式和命名高通量测序之后用于下游分析的数据一般存储在FASTQ文件中.为了节省空间,又不影响下游使用,也一般用gzip压缩的格式. 单端测序每个文库只返回一个FASTQ文件,双端测序两 ...
MPB：沈阳生态所李琪组-土壤线虫群落DNA提取、扩增及高通量测序
为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...
表观调控高通量测序分析培训开课啦
在广大粉丝的期待下,<生信宝典>联合<宏基因组>在2018年4月14日在北京鼓楼推出<ChIP系列高通量测序分析专题培训>,为大家提供一条走进生信大门的捷径.为同行 ...
高通量测序数据分析：RNA-seq
本文围绕RNA-seq学习路线进行生信入门,主要内容有: ☆ RNA-seq方法原理 ☆ RNA-seq的生物信息分析 1.数据获取测序数据下载与处理(SRA Toolkit) 测序数据质控与过滤( ...
高通量测序技术和序列拼接算法探析
高通量测序技术和序列拼接算法探析时间:2019-05-27 来源:计算机科学作者:周卫星,石海鹤本文字数:16853字摘要: 高通量测序 (High-throughput Sequen ...

fastq质量值_高通量测序数据的质量控制FastQC

fastq质量值_高通量测序数据的质量控制FastQC相关推荐

最新文章

热门文章