生信分析必须了解的4种文件格式

在做生物信息的过程中，经常需要进行各种文件格式。每一种生物软件都有固定的文件格式要求。因此，需要非常每一种数据的文件格式，从某种意义上来说，生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq到bam，从bam到vcf的过程。

fasta文件格式

FASTA文件主要用于存储生物的序列文件，例如基因组，基因的核酸序列以及氨基酸等，是最常见的生物序列格式，一般以扩展名fa,fasta,fna等。fasta文件中，第一行是由大于号">"开头的任意文字说明，用于序列标记，为了保证后续分析软件能够区分每条序列，单个序列的标识必须是唯一的，序列ID部分可以包含注释信息。从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号。序列部分可以在一行，也可以分成多行。

>gi|556503834|ref|NC_000913.3|:190-255 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>gi|556503834|ref|NC_000913.3|:337-2799 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG

fastq文件格式

fastq文件格式是用来存储测序文件的，它是含有quality的fasta文件。

@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA
+
JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
@DJB775P1:248:D0MDGACXX:7:1202:12782:49716
CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG
+
IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC

第一行：以‘@’开头，是这一条read的名字，这个字符串是根据测序时的状态信息转换过来的，中间不会有空格，它是每一条read的唯一标识符，同一份FASTQ文件中不会重复出现，甚至不同的FASTQ文件里也不会有重复；
第二行：测序read的序列，由A，C，G，T和N这五种字母构成，这也是我们真正关心的DNA序列，N代表的是测序时那些无法被识别出来的碱基；
第三行：以‘+’开头，在旧版的FASTQ文件中会直接重复第一行的信息，但现在一般什么也不加（节省存储空间）；
第四行：测序read的质量值，这个和第二行的碱基信息一样重要，它描述的是每个测序碱基的可靠程度，用ASCII码表示。

质量值体系

从表中可以看到下限有33和64两个值，我们把加33的的质量值体系称之为Phred33，加64的称之为Phred64（Solexa的除外，它叫Selexa64）。不过，现在一般都是使用Phred33这个体系，而且33也恰好是ASCII的第一个可见字符（'!'）

sam格式介绍

sam文件主要用来存储短序列比对的结尾，即将测序数据定位到基因组上的表示形式。

第一列：是reads ID
第二列：是flag标记的总和
第三列：比对到参考序列上的染色体号。
第四列：为在参考序列上的位置
第五列：比对的质量值，MAPQ
第六列：代表比对结果的CIGAR字符串
第七列：mate比对到的染色体号，若是没有mate，则是*
第八列：比对到参考序列上的第一个碱基位置
第九列：Template的长度，
第十列：为read的序列
第十一列：为ASCII码格式的序列质量；

VCF文件格式介绍

VCF是Variant Call Format的简称，是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP，插入/缺失INDEL, 拷贝数变异CNV，和结构变异SV等，都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。

1.CHROM [chromosome]：染色体名称，
2.POS [position]：参考基因组突变碱基位置，如果是INDEL，位置是INDEL的第一个碱基位置。
3.ID [identifier]：突变的名称，
4.REF [reference base(s)]：参考染色体的碱基
5.ALT [alternate base(s)]：与参考序列比较，发生突变的碱基，
6.QUAL [quality]： Phred标准下的质量值
7.FILTER [filter status]：使用其它的方法进行过滤后得到的过滤结果
http://8.INFO

文件格式介绍：https://genome.ucsc.edu/FAQ/FAQformat.html#format1

发布于 4 小时前

生信分析必须了解的4种文件格式相关推荐

生信分析流程构建的几大流派
导言构建生信分析流程是生物信息学从业人员必备的技能之一,对该项能力的评估常常是各大公司招录人员的参考项目之一. 在进行 ngsjs 项目时,我做了一张示意图来表示一些高通量测序数据分析项目重现性的要 ...
这是入门生信，学习生信分析思路和数据可视化的首选？
封面来源:https://www.zhihu.com/question/304747766 常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,是大部分CNS必备的技术,以后 ...
找不到r低版本_R 语言与数据挖掘直播班开始招生，生信分析帮你发高分文章
数据单薄很难支撑文章内容?数据有了不知道怎么处理作出高级的图片?这个时候需要的是生信分析--深度的数据挖掘和分析处理,可以帮助临床医生通过数据处理得到自己想要的信息,更快速地发文章. 学习哪种生信分析 ...
mirna富集分析_经验之谈丨生信分析文章套路原来这么简单！
近两年,不做实验或者仅需要少量实验的生物信息学分析文章,发表量越来越多.如果利用数据库检索,高效的发出一篇文章.是科研工作者关注的话题,今天我们就用一篇生信分析的文章作为切入点,来谈谈生信分析文章的套 ...
r语言python0基础_万丈高楼平地起，从零开始学R语（生信分析向，R语言基础）...
一.R语言的安装我所做的R语言学习主要是为应对工作上的生信分析,如果你是往这个方向走,那么这篇文章很大可能会帮助你.如果你也是有python基础的话,那我写的可能会更対你口味. 不过现在看到这篇文章 ...
cluego使用说明_生信分析绘图神器，你值得拥有！
GO和KEGG分析是最常用的生信分析方法,在SCI论文中也经常见到,那么你能想到的GO和KEGG分析结果的展示方法有哪些? 条形图? 条形图2? 饼状图? 表格? 相比于上面这些,这样的网络图展示起来 ...
一览生信分析的各种工作环境—Linux子系统、双系统、虚拟机和Docker
" 本文围绕计算机操作系统,概述了当下各种生信分析的工作环境." 一文掌握Conda软件安装:虚拟环境.软件通道.加速solving.跨服务器迁移 01 - Linux子系统 Wi ...
RNA-seq生信分析流程
RNA-seq生信分析流程 RNA-seq是近些年发展起来的针对转录组的测序技术,其能够获得mRNA.smallRNA以及各种非编码RNA的序列. 在不同细胞或者在相同细胞的不同发育阶段细胞中这些RN ...
图形化开放式生信分析系统开发- 1基本需求分析及技术实现
图形化开放式生信分析系统开发- 1基本需求分析及技术实现起因/背景软件获取:到官网sliverworkspace.com免费下载个人版,最新版本 2.0.277363 几张图片下面进入正题,以具 ...

生信分析必须了解的4种文件格式

生信分析必须了解的4种文件格式相关推荐

最新文章

热门文章