fastp—数据过滤质控
一、fastp的安装及使用
1)conda安装:conda install fastp
2)源代码安装:软件下载地址 https://github.com/OpenGene/fastp#get-fastp
#从GitHub下载源代码(也可下载后上传)
git clone https://github.com/OpenGene/fastp.git
ubzip fastp-master.zip
cd fastp-master
#编译
make
sudo make install(需sudo权限)
二、常见用法
过滤
1)质量过滤 : -q/--qualified_quality_pherd
高于此值才算数,默认15;-u/--unquantified_percent_limit
允许unqualified的碱基百分比,默认40%
2)长度过滤:长度过滤默认开启,可通过-L
取消,-l/--length_required
定义需要的最短长度,默认为15;--length_limit
定义接受的最长长度,默认为0表示没有限制
3)低复杂度过滤:默认不开启,可通过-y
开启,通过-Y
定义过滤条件
Adapter
1)SE数据:-a
2)PE数据:--adapter_sequence
指定read1的adapter序列 --adapter_sequence_r2
指定read2的adapter序列;也可以--detect_adapter_for_pe
开启illumina系列adapter自动检测功能
##per read cutting by quality score
目前数据illumina测序质量较好,该功能一般用不上,可参考https://github.com/OpenGene/fastp#get-fastp
global trimming
从序列开头或结尾去除一定数量的碱基:
-f/--trim_front1
表示从read1的开头去除,-t/--trim_tail1
从read1的尾部去除;-F
-T
则分别表示从read2去除
-b/--max_len1
表示read1经trim之后最长的长度 -B
则指read2的相应情况
polyX trimming
-x/--trim_poly_x
实现polyX的去除,默认长度为10
--poly_x_min_len
指定polyX的长度,默认为10
unique molecular identifier(UMI) processing
常用于duplication的消除和错误纠正,常用于如线粒体DNA等深度测序,普遍用于illumina平台,可分为index和read两部分,使用-U/--umi
来开启此功能,--umi_loc
指定UMI的位置如index1
index2
read1
read2
,若UMI指定在read上,则--umi_len
用于指定UMI的长度
个人常用代码fastp -f 10 -F 10 --detect_adapter_for_pe -x -i R1.fq.gz -I R2.fq.gz -o R1.out.fq.gz -O R2.out.fq.gz
其优缺点个人总结如下:
优点:
1)集质控和数据过滤于一体,使用方便
2)在序列trim方面处理速度远快于cutadapt等
3)可实现polyx的除去
缺点:
1)大部分参数使用较麻烦,不能直接用单字母实现功能
2)生成的fastp文件不会根据处理的样品自动命名,需手动依次更改
在质控方面,与fastqc相比,其在计算duplication level和overrepresented sequence上的统计略有不同,统计结果的呈现方面也不如fastqc直观(可能由于使用习惯导致)。且fastqc的报告文件可由multiqc进行统计,fastp不知是否也可以?
fastp—数据过滤质控相关推荐
- 单细胞测序流程(三)质控和数据过滤——Seurat包分析,小提琴图和基因离差散点图
质控和数据过滤 准备工具:R. 准备数据:上期经过整理的数据geneMatrix. 注意事项:R的安装目录和文件所在位置都不可有英文. R 语言所需安装的包: #if (!requireNamespa ...
- R行数据过滤基于dplyr包filter函数
R行数据过滤基于dplyr包filter函数 目录 R行数据过滤基于dplyr包filter函数 筛选等于某个值的行 使用与操作筛选行
- python与R行列数据过滤(row column filtering):dplyr、 isnull、isna、drop、select、iloc、loc、isin、filter
python与R行列数据过滤(row column filtering):dplyr. isnull.isna.drop.select.iloc.loc.isin.filter 很多工程师可能刚开始的 ...
- Pandas常见的数据过滤方法、通过列条件筛选行数据
Pandas常见的数据过滤方法.通过列条件筛选行数据 不废话了,直接看代码吧: 一般情况下,前面5种就覆盖了绝大多数需求 import pandas as pd import numpy as npd ...
- 【Android 内存优化】Android 工程中使用 libjpeg-turbo 压缩图片 ( JNI 传递 Bitmap | 获取位图信息 | 获取图像数据 | 图像数据过滤 | 释放资源 )
文章目录 一.Bitmap 图像数据处理 二.Java 层 Bitmap 对象转为 JNI 层 bitmap 对象 三.获取 bitmap 中的图像数据 四.过滤 bitmap 中的图像数据 ( 获取 ...
- Aspose Cells 控件如何实现数据过滤(附代码和下载地址)
Aspose Cells 是一款操作和处理以及转换Excel文件的类库,支持.NET和JAVA版,几乎所有Excel能实现的功能,Aspose Cells都可以实现,在Excel中经常会用到数据过滤, ...
- Hibernate的数据过滤查询
数据过滤并不是一种常规的数据查询方法,而是一种整体的筛选方法.数据过滤也可对数据进行筛选,因此,将其放在Hibernate的数据查询框架中介绍. 如果一旦启用了数据过滤器,则不管数据查询,还是数据加载 ...
- .NET WinForm程序中给DataGridView表头添加下拉列表实现数据过滤
转:http://www.cnblogs.com/jaxu/archive/2011/08/04/2127365.html 我们见过Excel中的数据过滤功能,可以通过点击表头上的下拉列表来实现数据的 ...
- sql两个表查不同数据_产品操作MySQL第6篇 – 数据过滤-WHERE子句
MYSQL 本资料为产品岗位作为日常工作参考,语言口语化 At 2019/4/26 By David.Yang 如何使用限定条件来进行数据过滤? 在前问当中,我们已经学会到了SELECT查询, 在过程 ...
最新文章
- java三维滑雪,第六章 三维数据空间分析方法.ppt
- 数据结构实验之图论八:欧拉回路
- 【笔记】springboot+spring security登录流程实现
- 数据结构(六)---队列的链式存储的实现---java版
- windows10和ubuntu16.04双系统下时间不对的问题
- 计算机的新技术未来发展趋势论文,计算机最新技术发展趋势毕业论文
- 电压转电流模块电路设计原理解析
- 学习Java可以干什么?
- 吹响数字经济时代的冲锋号 2021宝德X86生态伙伴大会在深召开
- 【杂七杂八】《我叫MT online》反编译解析
- iOS16新特性及开发适配
- 基于腾讯地图定位组件实现周边POI远近排序分布图
- [附源码]SSM计算机毕业设计中华美食网站JAVA
- 【Unity——阴影实现基本原理】
- 解决win10系统无法安装.Net framework3.5,安装Visual Studio 2010提示你的电脑上的应用需要使用以下Windows功能:.Net framework3.5(包括
- RB-tree性质理解
- 轻松完成Panoply安装
- 理光R5445系列 单节锂电池保护芯片,内置驱动器高位Nch FET开关温度保护
- android 滑动手势处理,Android实现手势滑动的方法
- Python_Nine