【生信】常见测序数据格式

文章的文字与图片全部/部分来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用。

目录

【生信】常见测序数据格式

1、FASTA

2、FASTQ

3、GFF

4、BED

5、SAM/BAM

6、VCF


在生物信息学中,由于不同数据的差异性非常大,需要统一的格式来记录数据的数据类型,数据来源,数据结构等等,便于数据的可重复利用,因此我们需要了解一些常见的测序数据格式。

1、FASTA

FASTA​(fasta)格式,又称Pearson格式,主要发明人是威廉·皮尔森(William Raymond Pearson)和戴维德.李普曼(David J. Lipman)。

fasta格式是一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释。该格式已成为生物信息学领域的一项标准。FASTA序列格式是Blast工具常用的组织数据的基本格式,无论是数据库还是查询序列,大多数情况都使用FASTA序列格式。

FASTA文件以序列名和序列作为一个基本单元,各行记录信息。
FASTA文件格式:
首行:由">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性。
正文:为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。

核苷酸序列

例1:下图为一个FASTA文件。

  1. 大于号“>”开头,表示一个序列的起始。
  2. gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,一条核酸或者蛋白质改变了,将赋予一个新的gi号。
  3. “gi|187608668|ref|NM_001043364.2|”是序列的标识符,表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。
  4. Bombyx mori moricin (Mor)表示设备名称
  5. mRNA表示这是一条mRNA序列。
  6. AAACCG......是正文的序列信息,一般60-80个字符为一列,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。

例2:人类一个名为EGFR基因的部分序列

>ENSMUSG00000020122|ENSMUST00000138518
CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGT
TATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGT

以大于号“>”开头,接着是序列的标识符“ENSMUSG00000020122”,然后是序列的描述信息。换行后是序列信息,标准核苷酸符号一般用大写字母。

例3:网上找的一个例子

 例4:一些fasta文件展示

为什么mRNA的序列还是用T来表示,而不是U?

这是为了保证数据的统一性,因为U只是在RNA中替换了原来的T,所以为了下游的方便分析处理,无论RNA序列还是DNA序列都是使用T而不是U。

核苷酸代码:

核苷酸代码

意义

核苷酸代码

意义

A

翔安(adenosine)

S

G或C (强作用strong)

C

胞嘧啶(cytidine)

W

A或T (弱作用weak)

G

鸟嘌呤(guanine)

B

G或T或C

T

胸腺嘧啶核苷(thymidine)

D

G或A或T

U

尿嘧啶(uridine)

H

A或C或T

R

G或A (puRine)

V

G或C或A

Y

T或C (嘧啶pyrimidine)

N

A 或G或C或T (任意1种)

K

G或T (酮化keto)

X

未知的

M

A或C (胺化amino)

-

片段长度不定

氨基酸序列

例:UniRef数据库中下载的人类血红蛋白α亚基的序列。

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP
AVHASLDKFLASVSTVLTSKYR
  1. P69905是这个序列在UniRef中的编号。
  2. HBA_HUMAN是这个序列的简称。
  3. Hemoglobin subunit alpha是全称。
  4. OS=Homo sapiens是物种。
  5. GN=HBA1是指基因的名字为HBA1。
  6. 正文为HBA1基因对应的蛋白的序列。

氨基酸代码:

氨基酸代码

意义

氨基酸代码

意义

A

丙氨酸(Alanine)

O

吡咯赖氨酸(Pyrrolysine)

B

天冬氨酸(Aspartic acid)或

天冬酰胺(Asparagine)

P

脯氨酸(Proline)

C

半胱氨酸(Cysteine)

Q

谷氨酰胺(Glutamine)

D

天冬氨酸(Aspartic acid)

S

丝氨酸(Serine)

E

谷氨酸(Glutamic acid)

T

苏氨酸(Threonine)

F

苯丙氨酸(Phenylalanine)

U

硒半胱氨酸(Selenocysteine)

G

甘氨酸(Glycine)

V

缬氨酸(Valine)

H

组氨酸(Histidine)

W

色氨酸(Tryptophan)

I

异亮氨酸(Isoleucine)

X

任意氨基酸

K

赖氨酸(Lysine)

Y

酪氨酸(Tyrosine)

L

亮氨酸(Leucine)

Z

谷氨酸(Glutamic acid)或

谷氨酰胺(Glutamine)

M

甲硫氨酸(Methionine)

*

翻译终止

N

天冬酰胺(Asparagine)

-

不确定长度空白占位符

R

精氨酸(Arginine)

J

亮氨酸(Leucine)或

异亮氨酸(Isoleucine)

标识符:

数据库名称(Database Name)

标识符(Identifier Syntax)

GenBank

gb | accession | locus

EMBL Data Library

emb|accession|locus

DDBJ, DNA Database of Japan

dbj|accession|locus

NBRF PIR

pir||entry

Protein Research Foundation

prf||name

SWISS-PROT

sp|accession|entry name

Brookhaven Protein Data Bank

pdb|entry|chain

Patents

pat|country|number

GenInfo Backbone Id

bbs|number

General database identifier

gnl|database|identifier

NCBI Reference Sequence

ref|accession|locus

Local Sequence identifier

lcl|identifier

2、FASTQ

FASTA格式主要是把序列存储到数据库中的一种格式,但是它不适合储存我们刚刚测到的测序数据。因为它没有序列的质量信息。那一般带有测序质量信息的FASTQ格式就成了储存测序数据的常用格式。

FASTQ是一种同样是一种基于文本的存储生物序列和对应碱基(或氨基酸)质量的文件格式,后缀名通常为.fastq 或者.fq。与fasta不相同的是,它除了存储序列本身外还存储了序列中每个单元所对应的质量分数,所以fastq格式通常用于高通量测试数据的存储。

FASTA文件格式:

  1. 第一行由'@'开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的。
  2. 第二行是序列。
  3. 第三行由'+'开始,后面也可以跟着序列的描述信息。
  4. 第四行是第二行序列的质量评价(测序的质量评价),字符数跟第二行的序列是相等的。Q=-10lgP ,其中P代表该碱基被测序错误的概率。

特别说明:

对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前常见有两种:

1)Sanger,Q值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。

2)Illumina 1.3+,Q值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;

例1

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
  1. 第一行是@字母开头的序列标识符,类似于FASTA的第一行信息
  2. 第二行是原始的序列信息
  3. 第三行是+字母开头,后面是序列标识符或者是描述信息,或者什么都不加。
  4. 第四行是质量信息,对于每一条序列,其每一个碱基都有一个对应的测序质量值,和第二行的序列相对应,根据评分体系的不同,每个字符的含义表示的数字也不相同,通常用ASCII码的排序来表示质量值,下面是每个质量值排列,从左向右递增:
!"#$%&'()*+,-./0123456789:;<=>?
@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

例2

@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6
  1. 第一行以@开头,后面是reads的ID以及其他信息。HWUSI-EAS100R代表Illumina设备名称,6代表flowcell中的第六个lane,73代表第六个lane中的第73个tile,941:1973代表该read在该tile中的x:y坐标信息;#0,若为多样本的混合作为输入样本,则该标志代表样本的编号,用来区分个样本中的reads;/1代表paired end中的前一个read。
  2. 第二行为read的原始序列。
  3. 第三行以“+”开头,跟随着该read的名称(一般于@后面的内容相同),但有时可以省略,但“+”一定不能省。
  4. 第四行代表reads的质量。一般地,碱基质量从0-40,既ASCii码为从 “!”(0+33)到“I”(40+33)。Q=-10lgP ,其中P代表该碱基被测序错误的概率

例3

 ASCII码表如下:

3、GFF

GFF(General Feature Format)是一种用于描述基因或者其它序列元素的文件格式,简单来说是用于基因或者基因组注释的一个文件格式。

正是由于有统一的格式来表示基因等元素,使得GFF格式的文件被广泛的使用与mapping与基因组数据可视化方面,因为它是一种简单的、方便的对于DNA、RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的那里到那里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出GFF格式。

以GFF3文件为例,GFF3文件中每一行为基因组的一个属性,分为9列,以TAB分开:

##gff-version 3
ctg123  .  exon  1300  1500  .  +  .  ID=exon00001
ctg123  .  exon  1050  1500  .  +  .  ID=exon00002
ctg123  .  exon  3000  3902  .  +  .  ID=exon00003
ctg123  .  exon  5000  5500  .  +  .  ID=exon00004
ctg123  .  exon  7000  9000  .  +  .  ID=exon00005

然后每一列的属性名称如下:

| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | | ------------------ | ----------------- | ----------
-- | ---------------- | -------------- | ----- | ------ | ----- | ---------- | | reference
sequence | annotation source | feature type | start coordinate | end coordinate | score |
strand | frame | attributes |
  1. 参照序列:指出注释的对象。如一个染色体,克隆或片段。可以有多个参照序列
  2. 注释来源:注释的来源。如果未知,则用点代替
  3. 特征类型:属性的类型,一般有通用的标准
  4. 起点:属性对应片段的起点。从1开始
  5. 终点:属性对应片段的终点
  6. 得分:针对一些量化的属性来表示程度得分
  7. :+表示正链,-表示负链,.表示不指定
  8. 步长:通常是编码蛋白质制定下一密码子开始位置。
  9. 属性:一个包含众多属性的列表。格式为(tag=value),不同属性之间以分号相隔

4、BED

BED(Browser Extensible Data)格式也是一种常用的用于基因注释的数据格式。BED格式数据有专门开发的工具bedtools来专门处理,和之前提到的GFF文件有很多相似的地方。

BED文件示例如下:

chr7  127471196  127472363  Pos1  0  +  127471196  127472363  255,0,0
chr7  127472363  127473530  Pos2  0  +  127472363  127473530  255,0,0
chr7  127473530  127474697  Pos3  0  +  127473530  127474697  255,0,0
chr7  127474697  127475864  Pos4  0  +  127474697  127475864  255,0,0
chr7  127475864  127477031  Neg1  0  -  127475864  127477031  0,0,255
chr7  127477031  127478198  Neg2  0  -  127477031  127478198  0,0,255
chr7  127478198  127479365  Neg3  0  -  127478198  127479365  0,0,255
chr7  127479365  127480532  Pos5  0  +  127479365  127480532  255,0,0
chr7  127480532  127481699  Neg4  0  -  127480532  127481699  0,0,255

BED文件每行至少包括chrom,chromStart,chromEnd三列(必选);另外还可以添加额外的9列(可选)。

必选的三列:

  1. chrom:染色体或者是scaffold的名称,或scaffold是比染色体小一点的组装单位。
  2. chromStart:染色体或scaffold中特征的起始位置。通常第一个碱基编号为0。
  3. chromEnd:染色体或scaffold中特征的结束位置。

9个可选的BED字段:

  1. name:定义每一行属性的名称
  2. score:得分在0到1000之间,如果useScore参数为1,则得分是指灰度级别
  3. strand:表示链的方向,+表示正向,或者-表示负向
  4. thickStart: 起始位置,例如,基因显示中的起始密码子
  5. thickEnd:终止位置,例如:基因终止编码位置
  6. itemRgb:RGB形式的RGB值,例如(255,255,255)。但是需要 itemRgb属性设置为On
  7. blockCount:BED行中的外显子数目
  8. blockSizes: 用逗号分割的外显子的大小, 对应于blockCount的数目
  9. blockStarts:用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应

5、SAM/BAM

SAM(sequence alignment map)是一种序列比对的文件格式,Sam格式是高通量测序数据分析的常用格式,因为它可以快速查找与坐标重叠的比对(它有记录一些序列索引信息),并且是一种高效的存储方式。

同时Sam格式也是是目前最常用的存放比对或联配数据的格式。无论是重测序,还是转录组,还是表观组,几乎所有流程都会产生SAM/BAM文件作为中间步骤,用于接下来分析。

Bam就是Sam格式的二进制文件,是一种通用的格式,由于Sam格式文件大小通常是十分巨大的,所以为了减少存储量等因素而将Sam转换为二进制格式以便于分析。

Sam格式数据可以分为两部分:注释信息(header section)和比对结果部分(alignment section).

a)注释信息:

注释信息可有可无,都是以@开头,用不同的tag表示不同的信息,主要有以下几种格式:

  • @HD,说明符合标准的版本、对比序列的排列顺序。VN是格式版本;SO表示比对排序的类型,有unknown(default),unsorted,queryname和coordinate几种。
  • @SQ,参考序列说明。SN:参考序列名字。LN:参考序列长度。这些参考序列决定了比对结果sort的顺序
  • @RG,比对上的序列(read)说明。Read Group。1个sample的测序结果为1个Read Group。
  • @PG,使用的程序说明。比对所使用的软件及版本,这个例子是hisat2,也有其他类似软件如bwa
  • @CO,任意的说明信息。

b)比对结果部分:

每一行表示一个片段的比对信息,包括11个顺序固定的必选字段一个可选的字段,字段之间用tag分割。这11个字段包括:

  1. QNAME:比对片段的(read)的名称信息。
  2. FLAG:位标识,表明比对类型:paring,strand,mate strand等等。
  3. RNAME:比对上的参考序列名。
  4. POS,position缩写,read比对到参考序列上,第一个碱基所在的位置,没匹配上设置为0。
  5. MAPQ:Mapping quality缩写,比对的质量分数,越高说明位置越唯一且可信度越高。
  6. CIGAR:(Compact Idiosyncratic Gapped Alignment Report),简要比对信息表达式,其以参考序列为基础,使用数字加字母表示比对结果,比对结果信息,匹配碱基数,可变剪接等等。
  7. RNEXT:下一个片段比对上的参考序列的编号,没有另外的片段,这里是*,同一个片段,用=**。
  8. PNEXT:下一个片段比对上的位置,如果不可用,此处为0。
  9. TLEN:观察到的Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,不可用为0。
  10. SEQ:序列片段的序列信息,如果不存储此类信息设置为*。
  11. QUAL:序列的质量信息,格式同FASTQ一样,read质量的ASCII编码。

12.可选字段(optional fields):格式如:TAG:TYPE:VALUE,其中TAG有两个大写字母组成,每个TAG代表一类信息,每一行一个TAG只能出现一次,TYPE表示TAG对应值的类型,可以是字符串、整数、字节、数组等。

可选字段如下表所示TAG:TYPE:VALUE:

比对结果部分 11列的填写规则:

列数

列名

类型

填写规则/

1

QNAME

String

[!-?A-~]{1,255}

2

FLAG

Int

[0,2^16 -1]

3

RENAME

String

*|[!-()+-<>-][!-]*

4

POS

Int

[0,2^29 -1]

5

MAPQ

Int

[0,2^8 -1]

6

CIGAR

String

*|([0-9]+[MIDNSHPX=])+

7

MRNM

String

*|=|[!-()+-<>-][!-]*

8

MPOS

Int

[0,2^29 -1]

9

TLEN

Int

[-2 29 +1,2 29 -1]

10

SEQ

String

*|[A-Za-z=.]+

11

QUAL

String

[!-~]+

SAM文件对比结果部分11列格式
第一列:QNAME 表示对比序列的名称,即片段的编号。

第二列:FLAG

数值结果如下:

1(01)该read是成对的paired reads中的一个。标示对应的二进制为01,标示read有多个测序数据,一般理解为有双端测序数据,另一条没有过滤掉;
2(10)paired reads中每个都正确比对到参考序列上,标示read的多个片段都有比对结果,双端的read都比对上了。

4(100)该read没比对到参考序列上。

8(1000)与该read成对的matepair read没有比对到参考序列上。

16(10000)该read其反向互补序列能够比对到参考序列

32(100000)与该read成对的matepair read其反向互补序列能够比对到参考序列

64(1000000)在paired reads中,该read是与参考序列比对的第一条

128(10000000)在paired reads中,该read是与参考序列比对的第二条

256(100000000)该read是次优的比对结果

512(1000000000)该read没有通过质量控制

1024(10000000000)由于PCR或测序错误产生的重复reads

2048(100000000000)补充匹配的read

该列数值如果不是以上数字中的一个,那么它可能是某几个的和,由于是二进制表示,所以在对应位置的数字将会是1,方便机器统计该条序列匹配的情况

第三列:RNAME

表示read比对的那条序列的序列名称(名称与头部的@SQ相对应),如果这列是“*”认为这条read没有比对上的序列,则这一行的第四,五,八,九 列是“0”,第六,七列与该列是相同的表示方法

第四列:POS

表示read比对到RNAME这条序列的最左边的位置,如果该read能够完全比对到这条序列(CIGAR string为M)则这个位置是read的第一个碱基比对的位置,如果该read的反向互补序列比对到这条序列,则这个位置是read的反向互补序列的第一个碱基比对的位置,所以无论该read是正向比对到该序列,或是其反向互补序列比对到该序列,比对结果均是最左端的比对位置

第五列:MAPQ

表示为mapping的质量值,该值的计算方法是mapping的错误率的-10log10值,之后四舍五入得到的整数,如果值为255表示mapping值是不可用的,如果是unmapped read则MAPQ为0,一般在使用bwa mem或bwa aln(bwa 0.7.12-r1039版本)生成的sam文件,第五列为60表示mapping率最高,一般结果是这一列的数值是从0到60,且0和60这两个数字出现次数最多

第六列:CIGAR

reads mapping到第三列序列的mapping状态,对于mapping状态可分为以下几类:

Malignment match ( match or mismatch)

表示read可mapping到第三列的序列上,则read的碱基序列与第三列的序列碱基相同,表示正常的mapping结果,M表示完全匹配,但是无论reads与序列的正确匹配或是错误匹配该位置都显示为M

I表示read的碱基序列相对于第三列的RNAME序列,有碱基的插入

D表示read的碱基序列相对于第三列的RNAME序列,有碱基的删除

N表示可变剪接位置,表示skipped,跳过这段区域。

Ppadding (silent deletion from padded reference),表示padding(填补)。

S:soft clipping (clipped sequences present in SEQ)表示被剪切的序列存在于序列中。S 一般会和H成对出现,当有H出现时,一定会有一个与之对应的S出现

H:hard clipping (clipped sequences NOT present in SEQ)表示被剪切的序列不存在于序列中。H 只出现在一条read的前端或末端,但不会出现在中间,

clipped均表示一条read的序列被分开,之所以被分开,是因为read的一部分序列能匹配到第三列的RNAME序列上,而被分开的那部分不能匹配到RNAME序列上。

=表示正确匹配到序列上

X 表示错误匹配到序列上

S 可以单独出现,而H必须有与之对应的S出现时才可能出现,不可在相同第一列的情况下单独出现

N 如果是mRNA-to-genome,N出现的位置代表内含子,其它比对形式出现N时则没有具体解释M/I/S/=/X:这些数值的加和等于第10列SEQ的长度

第七列:MRNM

这条reads第二次比对的位置,在利用bwa mem产生sam文件时

如果该列是“”而第3列RNAME不是“”则表示该reads比对到第3列显示序列名的序列上,而没有比对到其他位置,在利用bwa aln及bwa sampe比对生成的sam文件,如果和上述情况相同,则第7列为“=”,上述情况均表示该reads只比对到这一个位置。如果第3列RNAME和第7列MRNM都为“*”,则说明这条reads没有匹配上的序列,如果这条reads匹配两个序列,则第一个序列的名称出现在第3列,而第二个序列的名称出现在第7列

第八列:MPOS

该列表示与该reads对应的mate pair reads的比对位置,如果这对pair-end reads比对到同一条reference序列上,在sam文件中reads的id出现2次,Read1比对的第4列等于Read2比对的第8列。同样Read1比对的第8列等于Read2比对的第4列。例如:

第1列(Read id)····第4列(Read1比对位置)····第8列(mate-pair reads比对位置)

22699:1759····124057649····124057667

22699:1759····124057667····124057649

相同的reads id一个来自Read1文件,一个来自Read2文件,第4列和第8列是对应的。

表示下一个片段比对上的位置,如果不可用,此处为0。

第九列:TLEN

signed observed Template LENgth (可以理解为文库插入片段长度)

如果R1端的read和R2端的read能够mapping到同一条Reference序列上(即第三列RNAME相同),则该列的值表示第8列减去第4列加上第6列的值,R1端和R2端相同id的reads其第九列值相同,但该值为一正一负,R1文件的reads和R2文件的reads,相同id的reads要相对来看。在进行该第列值的计算时,如果取第6列的数值,一定要取出现M的值,S或H的值不能取。

表示Template的长度。如果第八列大于第四列,则为正数,否则负数。

第十列:SEQ

表示序列片段的序列信息,(注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度),表示read的碱基序列,如果是比对到互补链上则是反转互补序列。

第十一列:QUAL

表示read的质量,用ASCII编码表示。

例1

头部区域
@HD     VN:1.0  SO:unsorted
@SQ     SN:17   LN:83257441
@RG     ID:sample01
@PG     ID:hisat2       PN:hisat2       VN:2.1.0        CL:/home/bio/bin/hisat2/hisat2-align-s --wrapper basic-0 -c GTGCTGAACGACGAGGACTGCCGGGAGTTCCCCTGGCAC 
主体部分介绍,下面是一行文件
FCC0YG3ACXX:2:1103:1572:139769#GCTTAATG 99 chr10 60001 0 90M = 60390 479
GAATTCCTTGAGGCCTAAATGCATCGGGGTGCTCTGGTTTTGTTGTTGTTATTTCTGAATGACATTTACTTTGGTGCTCTTTATTTTGCG
CCCFFFFFHHHHHJJJJJJJJIJJJJJJJ?HHGIJJJBFHIJIJIDHIHIEHJJIJJIJJJHHGHHHFFFFFFEDCEEECCDDDDEECDD
XT:A:R NM:i:0 SM:i:0 AM:i:0 X0:i:2 X1:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:90
XA:Z:chr18,+14415,90M,0; RG:Z:120618_I245_FCC0YG3ACXX_L2_SZAXPI010030-30
拆分
1:FCC0YG3ACXX:2:1103:1572:139769#GCTTAATG
2:99
3:Chr10
4:60001
5:0
6:90M
7:=
8:60390
9:479
10:GAATTCCTTGAGGCCTAAATGCATCGGGGTGCTCTGGTTTTGTTGTTGTTATTTCTGAATGACATTTACTTTGGTGCTCTTTATTTTGCG
11:CCCFFFFFHHHHHJJJJJJJJIJJJJJJJ?HHGIJJJBFHIJIJIDHIHIEHJJIJJIJJJHHGHHHFFFFFFEDCEEECCDDDDEECDD
12:XT:A:R NM:i:0 SM:i:0 AM:i:0 X0:i:2 X1:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:90 XA:Z:chr18,+14415,90M,0; RG:Z:120618_I245_FCC0YG3ACXX_L2_SZAXPI010030-30

6、VCF

VCF(Variant Call Format)是用于描述SNP,INDEL和SV结果的文本文件,是存储变异位点的标准格式

以下是VCF格式的一个样例:

这个数据可以包括两个部分:

  1. 注释部分##表示,可以找到接下来每一个位点的描述的tag
  2. 主体部分:包含10列数据,主题部分每一行代表一个variant的信息
  • CHROM : 参考序列名称
  • POS : variant所在的位置,如果是INDEL的话,位置是INDEL的第一个碱基位置
  • ID : variant的ID。同时对应着dbSNP数据库中的ID,若没有,则默认使用.
  • REF : 参考序列的碱基
  • ALT : variant的碱基
  • QUAL : variants的质量。Phred格式的数值,代表着此位点是纯合的概率,此值越大,则概率越低,代表着次位点是variants的可能性越大(表示变异碱基的可能性)
  • FILTER : 用于表示次位点是否要被过滤掉
  • INFO : variant的相关信息,这里有很多的内容
  • FORMAT : variants的格式和基因型的信息

【生信】常见测序数据格式相关推荐

  1. 数据格式_初识生信常见数据格式知多少?

    ?点击上方蓝字把我们设为星标吧✴ 前言 刚刚踏入生信圈的你,有没有因为各种数据格式而困惑过?比如基因组Fasta序列,又或者二代测序的Fastq数据.这些数据有哪些特点?又有哪些日常操作是生信小白必须 ...

  2. [生信]甲基化测序的三种数据

    甲基化测序的 WGBS和RRBS,还有芯片 全基因组DNA甲基化测序(Whole Genome Bisulfite Sequencing,WGBS) 是 DNA 甲基化研究的金标准,它通过 Bisul ...

  3. 生信常见文件格式 bed

    bed文件是记录基因组位置信息的标准文件格式,同时也用于存储与位置相关的信息,例如在ChIP-Seq 分析中,长以bed文件存储检测信号强度的信息.结构变异检测(SV)结果也可以用bed文件或bedp ...

  4. 肿瘤/非肿瘤/单基因/单细胞/非编码:史上最全生信分析攻略!!!

    解读生信之美,探讨每篇文献背后的逻辑 非肿瘤专栏:条条大路通罗马 1.4+非肿瘤生信分析+铁死亡/焦亡/自噬/代谢/免疫的万能钥匙 短评:适合一些热门机制如铁死亡/焦亡/自噬等在非肿瘤疾病中的研究 2 ...

  5. 推荐我们在B站免费的生信入门基础课程|测序原理,GO/GSEA/WGCNA

    点击**阅读原文**直达! 经典升级 | 第 17 期高级转录组分析和R数据可视化火热报名中!!! Nature重磅综述 |关于RNA-seq,你想知道的都在这 RNA-seq最强综述名词解释& ...

  6. 生信软件 | FastQC(质量控制,查看测序质量)

    生信软件 | FastQC 介绍 高通量测序数据的高级质控工具 输入FastQ,SAM,BAM文件,输出对测序数据评估的网页报告 安装 conda install fastqc 这里需要安装Conda ...

  7. 从测序到宏基因组:聚焦菌群生信分析方法最前沿

    今天是第2439期日报. Nature子刊:基于三代测序的宏基因组分析助力完整微生物进化研究 Nature Methods[IF:47.99] ① 基于Pacific Biosciences或Oxfo ...

  8. .md是什么文件_生信中常见的数据文件格式

    TCGA | GEO | 文献阅读 | 数据库 | 理论知识 R语言 | Bioconductor | 服务器与Linux 前面我们介绍了各种测序技术的原理:illumina.Sanger.第三代和第 ...

  9. linux怎么查看一个bam文件,生信分析过程中这些常见文件的格式以及查看方式你都知道吗?...

    原标题:生信分析过程中这些常见文件的格式以及查看方式你都知道吗? 生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据 fastq 之外,还需要准备基因组文件 fasta 格式和基因注释文件 ...

最新文章

  1. 【数据结构】树状数组 例题剖析
  2. linux系统时间相关
  3. 机器学习中的训练集,验证集及测试集的关系
  4. python manager是进程安全的么_Python在进程之间共享锁
  5. .NET资源站点汇总
  6. 使用abd工具查看安卓设备cpu处理器是32位或64位
  7. web网页设计实例作业 我的家乡- 达州(4页) HTML+CSS+JavaScript dreamweaver作业静态HTML网页设计模板
  8. 搭建以图搜图检索系统
  9. 学会查看tomcat的日志文件
  10. 流畅安装、简单使用annie下载B站视频
  11. windows配置Redis访问时只能用localhost不能用ip访问
  12. NetSuite Account Register报表详解
  13. CMMI(能力成熟度集成)四个等级
  14. idea修改代码提示时间
  15. 【ZCMU1603】卡斯丁狗的战舰帝国(并查集)
  16. 使用Maven控件proguard-maven-plugin给可执行jar文件混淆
  17. cocos2dX打包图文详解
  18. linux刷新本地dns命令_Linux网络命令
  19. 电脑显示无法启动程序 因为计算机丢失,电脑显示无法启动此程序丢失.dll文件怎么办...
  20. 【庖丁解牛】MySQL编译出现报错 : Could not find rpcgen 解决方案

热门文章

  1. 玻璃电极的测定原理是什么?
  2. 目标、目的你分清了吗?
  3. 手机端口号怎么查看_手机文件怎样快速传输到电脑
  4. 如何使用CAD图块功能制图呢?
  5. 基于SSM的高校餐厅防疫管理系统
  6. 余额宝收益太低怎么办?
  7. games101,作业3
  8. 顶象受邀加入“数字政府网络安全产业联盟”
  9. 基于I2C硬件协议的AHT20温湿度传感器的数据采集
  10. 开发过程中,本地分支和远程跟踪分支发生了diverge