fastq质量值_高通量测序数据的质量控制FastQC
FastQC是一个跨平台的应用程序,用java编写,它可以快速的对测序数据进行质量评估。理论上讲,它应该在java运行时环境下进行操作。该软件无需编译,可直接运行。
1.软件下载
FastQC下载地址:
http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
选择FastQC v0.11.9 (Win/Linux zip file)版本,使用以下命令行进行下载安装:
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip
得到fastqc_v0.11.9.zip压缩包
解压:unzip fastqc_v0.11.9.zip
进入FastQC,并查看help文件:
cd FastQC
./fastqc -h
发现没有执行权限,使用下面命令增加可执行权限:
chmod 755 fastqc
再次查看help文件:
现在可以正常使用了。
现在给大家介绍一下该软件常用的几个主要参数:
-o –outdir:在指定的输出目录中创建所有输出文件,该目录必须存在
-t –threads:线程数
-f –format:输入文件格式,可以是bam,sam,bam_mapped,sam_mapped 和fastq这些格式的文件
将该软件加入环境变量之后,每次运行可以不加绝对路径。
今天我们以fastq文件格式为例: SRR7279481_1.fastq.gz和SRR7279481_2.fastq.gz
先创建输出结果所在目录: mkdir quality_control
运行fastqc:
fastqc -o ./quality_control -t 5 SRR7279481_1.fastq.gz SRR7279481_2.fastq.gz
运行结束后,生成两个压缩文件,两个.html网页文件
在浏览器中打开SRR7279481_1_fastqc.html,打开该文件,显示为这样:
FastQC report中summary为测序数据的整体质量情况:为合格,为警告,为不合格。接下来,对每个图进行简单介绍:
a.基本信息
Filename:进行质控的文件名
File type:文件类型
Encoding:测序平台的版本和相应的编码版本号
Total Sequences:reads数量
Sequences flagged as poor quality:标记为质量差的序列数目
Sequence length:测序长度
%GC:整体序列GC含量
#整体合格
b.序列测序质量统计
横轴表示被测序的序列从第1个碱基到第144个碱基序号,纵轴表示对应碱基的质量得分,20表示对应碱基错误率为0.01,30表示对应碱基错误率为0.01。图中蓝色实线表示各个碱基质量得分平均值的连线。
c.每条序列质量得分
横轴是0-36,代表Q值(序列的质量值)
纵轴代表每个Q值对应的reads数目,在Q=34时,对应reads数最多,结果合格。
d.碱基分布图
横轴是1-144 bp;纵轴是百分比,红线代表T,蓝线代表C,绿线代表A,黑线代表G,理论上A的含量等于T,C的含量等于G。该结构警告一次。
e.序列GC含量分布
横轴表示平均GC含量百分比,纵轴表示特定GC含量百分比下对应的reads数量。蓝线为理论分布,红线为实际分布,两者越接近越好。该结果不合格。
f. N含量
当测序仪器对某条reads某个位置不能对应到ATCG上时,便会产生“N”,统计所有reads每个位置“N”的比例。
g.序列长度分布
测序仪每次测出来的长度在理论上应该是完全相等的,但是总会有一些偏差。该结果警告一次,结果不太理想。图中表示150bp是主要长度,但也存在其它长度。
h.重复序列水平
统计重复序列的频率。横坐标是序列重复的次数,纵坐标是重复序列的数目。红线表示重复序列,蓝线表示总的序列。
i. 过表达序列
如果有某个序列大量出现,就叫做 over-represented。
j.接头含量
横轴是1-139 bp;纵轴是adapter百分比
大家对测序数据质控如果有什么问题,可以私我。欢迎提问,交流。
fastq质量值_高通量测序数据的质量控制FastQC相关推荐
- 高通量测序数据质控神器Trimmomatic
简介 高通量测序下机的原始数据中存在一些低质量数据.接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节.Trimmomatic就 ...
- 使用 Docker 分析高通量测序数据
端午节假期,先祝各位 Bio IT 的爱好者们,节日快乐! 做生信的童鞋想要学习 Docker,或者使用 Docker+Pipeline 封装自己的一套数据分析流程,相信一定不能错过胡博强老师在201 ...
- 从NCBI当中SRA数据库中下载高通量测序数据
从NCBI当中SRA数据库中下载高通量测序数据 NCBI sra 数据下载 用迅雷替代官方的prefetch批量下载SRA测序数据,更快更稳定! 用别人的数据,发自己的文章 由于大多数杂志在文章发表前 ...
- fastq质量值_微生物组16S rRNA数据分析小结:从fastq测序数据到OTU table
推荐阅读 1.ggplot2绘制曼哈顿图示例2.phyloseq | 用 R 分析微生物组数据及可视化3.R语言PCA分析教程 | Principal Component Methods in R4. ...
- mysql like反义_[转载]关于小RNA高通量测序数据分析方法的研究
1 引言 小RNA(small RNAs)主要指长度在18-30nt的一类非编码RNA(ncRNAs),在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNAs,miRNAs) ...
- fastq质量值_FASTQ格式解释和质量评估
FASTQ文件格式和命名 高通量测序之后用于下游分析的数据一般存储在FASTQ文件中.为了节省空间,又不影响下游使用,也一般用gzip压缩的格式. 单端测序每个文库只返回一个FASTQ文件,双端测序两 ...
- MPB:沈阳生态所李琪组-土壤线虫群落DNA提取、扩增及高通量测序
为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...
- 表观调控高通量测序分析培训开课啦
在广大粉丝的期待下,<生信宝典>联合<宏基因组>在2018年4月14日在北京鼓楼推出<ChIP系列高通量测序分析专题培训>,为大家提供一条走进生信大门的捷径.为同行 ...
- 高通量测序数据分析:RNA-seq
本文围绕RNA-seq学习路线进行生信入门,主要内容有: ☆ RNA-seq方法原理 ☆ RNA-seq的生物信息分析 1.数据获取 测序数据下载与处理(SRA Toolkit) 测序数据质控与过滤( ...
- 高通量测序技术和序列拼接算法探析
高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘 要: 高通量测序 (High-throughput Sequen ...
最新文章
- 数据库综合设计java_JAVA程序综合设计数据库设计_
- cas单点登录原理碎碎念
- 蓝牙-HCI错误码列表
- vue 微信支付的坑_vue_模式下h5微信支付
- 首款Android 16旗舰敲定!谷歌Pixel 6系列将获5年Android更新
- 微信“拍一拍”的后悔药来了!手滑拍了老板终于有救了
- C#里的三种定时器类型
- OSI七(八)层结构 TCP/IP 4层结构
- 微信开发者工具下载安装教程
- Android问题解决--“StorageManager.getVolumeList NullPointerException”空指针再现,getExternalDirs
- C++ gbk与utf8互转
- 实对称矩阵一定要用正交矩阵来对角化吗?
- 小学教师计算机国培培训总结,小学教师国培计划研修总结
- echart--axisLabel中值太长不自动换行
- 【软件测试】软件测试基础知识
- 代理对推广网站的四个作用
- 轻易成就难事的 “ 美好心灵 ” 之力
- win10系统解决Outlook2007不能记住密码问题
- web前端期末大作业:个人网站设计——响应式个人小站网站HTML+CSS+JavaScript
- java timertask 销毁_java中TimerTask 如何才能停止呢
热门文章
- 【数学建模】基于matlab GUI弱肉强食问题—Volterra 模型【含Matlab源码 1502期】
- 机器学习 声音 分角色_机器学习对儿童电视节目角色的痴迷
- 深度强化学习从入门到大师_深度学习大师的经验教训
- 如何将一个字典转换为玲阶矩阵_每日一课 | Python循环字典
- mysql角色管理权限管理_mysql权限角色管理
- 鼠标悬停显示不同内容_数字标牌的A到Z:C代表CMS(内容管理系统)
- VMware安装Ubuntu配置NAT模式下静态IP,解决访问外网问题
- 英特尔在移动时代的衰落或许不会影响苹果
- JS工具对象 DATE 方法
- [React-Native]环境配置amp;HelloWorld