FastQC 配置 及 基本使用
- FastQC 安装
$ wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip $ unzip fastqc_v0.11.7.zip $ cd fastqc_v0.11.7.zip $ chmod 744 fastqc # 将 fastqc 设置为可执行程序 ↑ or ↓ $ chmod u+x fastqc
- 基础质量控制
# -o output_dic -t -thread $ fastqc -o output_dic -t num_thread reads.fastq
- 质量控制结果 简要说明:
- Basic Statics 序列基本信息:
文件名, 文件类型,文件编码信息(phred33/64), 实际总序列条数, 序列长度 - Per Base Sequence Quality: 每个碱基位置序列质量信息,标题为 fastQ 文件使用的质量编码信息
- Per Sequence Quailty Score: 查看序列子集是否存在普遍低质量
长时间运行会导致质量下降 --> 质量修整 - Per Base Sequence Content: 每个碱基位置的 AGTC 比例:
过度表达 --> 衔接子二聚体, rRNA
Biased Composition Libraries: 某些文库固有的偏向它们的序列组成, 如被 Na2SO3 处理的序列, 大量 C 突变为 T - Per Sequence GC content::测量每个序列的全长 GC 含量,与 GC 正态分布建模进行比较
锐利峰:特定污染物
扁平峰:多种污染 - Per Base N content:当测序仪无法充分置信地识别碱基位点的碱基时,产生N。计算每个位点的 N 数目
warning 可能代表质量普遍下降,检查特定bin中覆盖分布,可能最后一个bin中包含的序列很少,产生错误
可能是早期少数位置上高比例的N,总体质量较好,序列组成非常偏向碱基测序仪偏差 - Sequence Length Distribation:计算所有序列长度分布
一些高通量测序仪产生长度一致的片段,但其他序列片段可能含有大量不同的读书
即使长度统一,一些管道也会调整序列,从最后删除质量差的 base call.
警告十分正常,可忽略 - Daplicate Sequence:计算每个序列的重复程度
PCR
RNA-seq 过度排列高表达的转录物
chip-seq 受限制的起始位点(无影响) - Overrepresented:有无过表达序列
- Adapter Content:对文本库中所有Kmers进行通用分析,以查找哪些在阅读时无法覆盖的内容,查找Adapter
每个碱基位点已看到的每个Adapter序列的文库比例 - Kmer Content:计算每个重复段序列出现的次数
如果序列质量很差的序列很长,那么随机序列错误率就会大大增大,减少完全重复序列的计数
如果序列中出现了子序列重复,那么这将不会被Per base content plot of the duplicate sequence analysis 察觉 - Per Tile Sequence Quality:显示每个 tail 的测序质量。
冷色 高于平均质量
热色 低于平均质量
可能仅仅是某个特定时间触发
出现大面积热色 --> 事件遍布流通池 - 命令行参数说明
fastqc [-o output dir] [ -(no) extract] [-f fastq | bam | sam] [-c 污染文件] seqfile1 | seqfile2 |...
-h --help-v --version-o -output dir- casave 文件来自原始 casave 输出-nano 文件来自 naopore 序列,采用 fast5 格式-extract 如果设置,则压缩输出-j --java java二进制文件完整路径-nogroup 禁止读取2500bp以上的碱基组-f 跳过正常文件格式检测,强制使用指定格式 bam | sam | bam_mapped | sam_mapped | fastq-t --threads 多线程,每个线程 250 M-c --contamin 指定包含列表的非默认文件,污染物筛选过多的序列(哈希)-a -adapters 指定包含列表的非默认文件,包含一组已经命名的Adapter(哈希)-l 指定一个非默认文件,限制将用于确认 warning / Fairure,或者从结果中删除一些模块, cofiguration --> limits.txt-k -kmers 指定要在Kmer中查找的长度,必须在2-10 之间,默认为7-q -quiet 安静模式,在标准输出上禁止所有的进度消息,只报错-d --dir 一个目录用于写入临时文件当生成图像时, 默认系统临时目录
FastQC 配置 及 基本使用相关推荐
- linux fastQC 操作命令,[Bio-Info]fq文件解析统计工具:FastQC在linux下初应用
FastQC用于解析统计.fastq文件.下面来简述它在linux中如何启动,以及可能碰到的问题. 效果 从官网下载fastqc $ wget https://www.bioinformatics.b ...
- FastQC的安装与使用
高通量测序获取的原始数据是一条条reads,再经过检测和拼接形成完整的基因组序列.这千千万万条序列就相当于我们数据分析实验的材料,如果测序质量比较差,那么得出的结果--,嗯,你懂的. 今天小编分享给大 ...
- Java环境下运行fastqc_在Ubuntu上安装FastQC
一. 什么是FastQC. FastQC是一款基于Java的软件,一般都是在linux环境下使用命令行运行,它可以快速多线程地对测序数据进行质量评估.因为是一个Java软件,下载后可以直接使用,但是需 ...
- Java环境下运行fastqc_质控软件fastQC的安装及用法
FastQC是一款基于Java的软件,它可以快速地对测序数据进行质量评估,得到多个测序数据的质量参数,让我们对测序数据质量有个初步的认识,从而判断后续的质控如何进行. FastQC的下载与安装 1.安 ...
- fastqc检验时不能执行java_安装Fastqc软件遇到的坑
由于之前的HPC太难用了,所以决定搬家到十楼的工作站,于是就免不了配置必要的工作环境,其中一个少不了要安装的软件是就是fastqc,因为它太常用了. 我先是用conda安装,因为conda实在是太方便 ...
- fastqc检验时不能执行java_fastqc对原始测序reads质控
fastqc软件的使用 一:下载安装该软件 具体搜索其地址下载,fastqc是一个java软件,下载后可以直接使用,但是需要自行配置好java环境,具体配置方法,见linux下java配置. 二:准备 ...
- fastqc检验时不能执行java_解压fastqc软件包后,运行fastqc报错:没有这个命令?...
最近在做CHIP-seq,从NCBI上获取了原始数据后,想用fastqc检查一下二代测序数据有没有问题 于是我从官网上面下载了fastqc人软件包,并解压到了Biosofts文件夹里面 然后运行 fa ...
- FastQC安装以及试用
FastQC是一个java程序,能够用于给出测序数据的QC报告,报告中会同时给出上述几个方面的数据图,并提示原来的数据可能还存在着哪些问题,它可以很好地帮助我们理解测序数据的质量情况. 使用FastQ ...
- 一文掌握 conda 安装配置生物信息软件
2.4 conda 安装配置生物信息软件 2.4.1 conda 安装和配置 2.4.2 conda 基本使用 2.4.3 conda 的 channel 2.4.4 创建不同的软件运行环境 2.4. ...
最新文章
- Qt Creator分析函数执行
- 8587520在51CTO【礼树迎蛇 红满社区】
- idea+maven下jrebel的安装破解
- 2纳米芯片问世!芯片性能要起飞?!
- __syncthreads()
- CF868F Yet Another Minimization Problem
- 开源当自强:我们不是“便宜货”
- Springboot高级特性——缓存
- 格力:核心科技有时也是高利贷
- 搞了一个迭代发布下SpringBoot Jar瘦身方案,老大给我打了个A+
- STM(Software Transactional Memory Systems)是什么 怎么用
- abrt-hook-ccpp: Saved core dump of pid 12224导致dn挂掉问题
- 07-12-Exchange Server 2019-安装-CU1
- 推荐几款开发板TI AM335X NXP IMX6UL
- 飞凌OK6410开发板加装锂电池电源管理模块
- MapReduce中Shuffle机制的学习案例——房屋租赁信息
- 测试开发知识总结(一)
- 2022出海欧美:英国电商市场现状及发展前景
- 保护云端数据安全的方法,主要有哪几种?
- 玛酷机器人与艾迪瑞特_玛酷机器人,你凭什么这么火?