FASTQ format

每个FASTQ文件中每个序列通常有四行信息:
1: 以 '@' 字符开头,后面紧接着的是序列标识符和可选字段的描述(类似FASTA title line).
2: 序列
3: 以 '+' 字符开头, 后面紧接着的是可选字段的描述性信息
4: 第二行序列的质量信息

Illumina sequence identifiers

@HWUSI-EAS100R:6:73:941:1973#0/1

sequence identifiers description
HWUSI-EAS100R the unique instrument name
6 flowcell lane
73 tile number within the flowcell lane
941 'x'-coordinate of the cluster within the tile
1973 'y'-coordinate of the cluster within the tile
#0 index number for a multiplexed sample (0 for no indexing)
/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)

Versions of the Illumina pipeline since 1.4 appear to use #NNNNNN instead of #0 for the multiplex ID, where NNNNNN is the sequence of the multiplex tag.

With Casava 1.8 the format of the '@' line has changed:

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG

sequence identifiers description
EAS139 the unique instrument name
136 the run id
FC706VJ the flowcell id
2 flowcell lane
2104 tile number within the flowcell lane
15343 'x'-coordinate of the cluster within the tile
197393 'y'-coordinate of the cluster within the tile
1 the member of a pair, 1 or 2 (paired-end or mate-pair reads only)
Y Y if the read is filtered, N otherwise
18 0 when none of the control bits are on, otherwise it is an even number(偶数)
ATCACG index sequence

将FASTQ 转换为 FASTA 格式:

zcat input_file.fastq.gz | awk 'NR%4==1{printf ">%s\n", substr($0,2)}NR%4==2{print}' > output_file.fa#printf 命令的语法:format-string 为格式控制字符串,arguments 为参数列表。
printf  format-string  [arguments...]#substr(s,p) 返回字符串s中从p开始的后缀部分
#substr(s,p,n) 返回字符串s中从p开始长度为n的后缀部分。

转载于:https://www.cnblogs.com/adawong/p/8032871.html

FASTQ format相关推荐

  1. linux怎么查看fastq格式文件,2020-01-11 了解FASTQ格式并处理FASTQ文件

    FASTQ文件格式是测序仪展示数据的标准格式,可以看成FASTA文件的变种(FASTA+Q),因为其包含了对序列中每个碱基的Qualify Measurement.(如:碱基A出错的可能性是1/100 ...

  2. fastq :怎么判断fastq是Phred33格式还是Phred64 格式

    现在的一般都是Phred33的吧.. 对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前有5种方案: Sanger,Phred quality score,值的范围从0到92,对应的ASCII ...

  3. R语言处理FASTQ文件报错相关

    setwd("E:/CTQ/plw/3w3d")##设置路径 install.packages("Biostrings")##下载包 > seqdata ...

  4. Nature子刊:超高速细菌基因组检索技术

    超高速搜索现存细菌和病毒基因组 Ultrafast search of all deposited bacterial and viral genomic data Nature Biotechnol ...

  5. NBT:超高速细菌基因组检索技术

    文章目录 超高速搜索现存细菌和病毒基因组 写在前面 热心肠日报 摘要 图1. 序列搜索方法 图2. 编码原理 图3. 权衡速度和空间下与索引大小关系 图4. 质粒序列的系统发育分布 图5. 质粒分布与 ...

  6. USEARCH11命令大全,200+命令中文简介,快速查找需要功能

    序列比对 嵌合体检测和过滤 序列.树和基于图形的聚类 距离矩阵 多样性分析 fastq格式文件处理 Fasta和fastq文件处理格式 机器学习和鉴定有用OTUs 其它命令 OTU分析和去噪 OTU表 ...

  7. E. coli Bacterial Assembly 大肠杆菌

    使用Scaffold因为缺乏完整的基因组 https://github.com/PacificBiosciences/DevNet/wiki/E.-coli-Bacterial-Assembly 该记 ...

  8. 微生物 研究_微生物监测如何工作,为何如此重要

    微生物 研究 Background 背景 While a New York Subway station is bustling with swarms of businessmen, student ...

  9. 一文搞定细菌基因组De Novo测序分析

    本文转自基因的生物信息学分析,链接 https://mp.weixin.qq.com/s/xWOlv5WVJ7LwTuRQDXmGzg 以一个细菌的测序数据为例子,介绍细菌基因组测序分析流程.本次实验 ...

最新文章

  1. 《编写有效用例》导读书评——“Jolt大奖精选丛书”有奖征文
  2. kill -0 pid是做什么用的?
  3. P4389-付公主的背包【生成函数,多项式exp】
  4. LeetCode 447. 回旋镖的数量(哈希map+组合数)
  5. 未能初始化appscan应用程序现在将关闭_企业区块链应用程序的两个关键问题
  6. Mybatis plus 整合springboot 出现的Invalid bound statement (not found)问题
  7. QQ抢车位外挂(起始篇)--小研究成果展示
  8. PHP100视频解压密码以及目录
  9. CSS font-family字体大合集
  10. 联想服务器控制口登录地址_联想服务器登录管理界面 联想服务器客服
  11. 阳明先生固天纵英才矣《王阳明全集》作者: 王守仁
  12. DSP之LCD1602笔记
  13. 用django开发一个报修系统
  14. 什么是websocket
  15. 1999-2018年地级市环境污染及处理数据
  16. python 简单程序设计
  17. iphone的shsh备份实用方法
  18. 193页5万字智慧物流园解决方案
  19. 亚马逊的一道智力题,悬链线问题
  20. Hibernate笔记辅助代码

热门文章

  1. 用css3制作一个搜索框效果
  2. Linux驱动(12)--LED驱动
  3. JS Addition
  4. 计算机网络 HTTP工作机制 TCP三次握手四次挥手 TCP滑动窗口
  5. mimo+matlab代码,mimo-matlab代码
  6. 各种触发器的特性方程_薛定谔方程,究竟神奇在哪里?
  7. concat() “+“ 和 append() 的区别
  8. [Swift]LeetCode17. 电话号码的字母组合 | Letter Combinations of a Phone Number
  9. 数学思想 —— 推广和泛化
  10. BZOJ-1922 大陆争霸 多限制、分层图最短路 (堆+dijkstra)