【生信】常见测序数据格式
【生信】常见测序数据格式
文章的文字与图片全部/部分来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用。
目录
【生信】常见测序数据格式
1、FASTA
2、FASTQ
3、GFF
4、BED
5、SAM/BAM
6、VCF
在生物信息学中,由于不同数据的差异性非常大,需要统一的格式来记录数据的数据类型,数据来源,数据结构等等,便于数据的可重复利用,因此我们需要了解一些常见的测序数据格式。
1、FASTA
FASTA(fasta)格式,又称Pearson格式,主要发明人是威廉·皮尔森(William Raymond Pearson)和戴维德.李普曼(David J. Lipman)。
fasta格式是一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释。该格式已成为生物信息学领域的一项标准。FASTA序列格式是Blast工具常用的组织数据的基本格式,无论是数据库还是查询序列,大多数情况都使用FASTA序列格式。
FASTA文件以序列名和序列作为一个基本单元,各行记录信息。
FASTA文件格式:
首行:由">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性。
正文:为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。
核苷酸序列
例1:下图为一个FASTA文件。
- 大于号“>”开头,表示一个序列的起始。
- gi号“gi|gi_identifier”,gi号类似与数据库中的流水号,由数字组成,一条核酸或者蛋白质改变了,将赋予一个新的gi号。
- “gi|187608668|ref|NM_001043364.2|”是序列的标识符,表示序列来源于NCBI的参考序列库,接收号为“NM_001043364.2”。
- Bombyx mori moricin (Mor)表示设备名称
- mRNA表示这是一条mRNA序列。
- AAACCG......是正文的序列信息,一般60-80个字符为一列,序列中允许空格,换行,空行,直到下一个大于号,表示该序列的结束。
例2:人类一个名为EGFR基因的部分序列
>ENSMUSG00000020122|ENSMUST00000138518
CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGT
TATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGT
以大于号“>”开头,接着是序列的标识符“ENSMUSG00000020122”,然后是序列的描述信息。换行后是序列信息,标准核苷酸符号一般用大写字母。
例3:网上找的一个例子
例4:一些fasta文件展示
为什么mRNA的序列还是用T来表示,而不是U?
这是为了保证数据的统一性,因为U只是在RNA中替换了原来的T,所以为了下游的方便分析处理,无论RNA序列还是DNA序列都是使用T而不是U。
核苷酸代码:
核苷酸代码 |
意义 |
核苷酸代码 |
意义 |
A |
翔安(adenosine) |
S |
G或C (强作用strong) |
C |
胞嘧啶(cytidine) |
W |
A或T (弱作用weak) |
G |
鸟嘌呤(guanine) |
B |
G或T或C |
T |
胸腺嘧啶核苷(thymidine) |
D |
G或A或T |
U |
尿嘧啶(uridine) |
H |
A或C或T |
R |
G或A (puRine) |
V |
G或C或A |
Y |
T或C (嘧啶pyrimidine) |
N |
A 或G或C或T (任意1种) |
K |
G或T (酮化keto) |
X |
未知的 |
M |
A或C (胺化amino) |
- |
片段长度不定 |
氨基酸序列
例:UniRef数据库中下载的人类血红蛋白α亚基的序列。
>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHG
KKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTP
AVHASLDKFLASVSTVLTSKYR
- P69905是这个序列在UniRef中的编号。
- HBA_HUMAN是这个序列的简称。
- Hemoglobin subunit alpha是全称。
- OS=Homo sapiens是物种。
- GN=HBA1是指基因的名字为HBA1。
- 正文为HBA1基因对应的蛋白的序列。
氨基酸代码:
氨基酸代码 |
意义 |
氨基酸代码 |
意义 |
A |
丙氨酸(Alanine) |
O |
吡咯赖氨酸(Pyrrolysine) |
B |
天冬氨酸(Aspartic acid)或 天冬酰胺(Asparagine) |
P |
脯氨酸(Proline) |
C |
半胱氨酸(Cysteine) |
Q |
谷氨酰胺(Glutamine) |
D |
天冬氨酸(Aspartic acid) |
S |
丝氨酸(Serine) |
E |
谷氨酸(Glutamic acid) |
T |
苏氨酸(Threonine) |
F |
苯丙氨酸(Phenylalanine) |
U |
硒半胱氨酸(Selenocysteine) |
G |
甘氨酸(Glycine) |
V |
缬氨酸(Valine) |
H |
组氨酸(Histidine) |
W |
色氨酸(Tryptophan) |
I |
异亮氨酸(Isoleucine) |
X |
任意氨基酸 |
K |
赖氨酸(Lysine) |
Y |
酪氨酸(Tyrosine) |
L |
亮氨酸(Leucine) |
Z |
谷氨酸(Glutamic acid)或 谷氨酰胺(Glutamine) |
M |
甲硫氨酸(Methionine) |
* |
翻译终止 |
N |
天冬酰胺(Asparagine) |
- |
不确定长度空白占位符 |
R |
精氨酸(Arginine) |
J |
亮氨酸(Leucine)或 异亮氨酸(Isoleucine) |
标识符:
数据库名称(Database Name) |
标识符(Identifier Syntax) |
GenBank |
gb | accession | locus |
EMBL Data Library |
emb|accession|locus |
DDBJ, DNA Database of Japan |
dbj|accession|locus |
NBRF PIR |
pir||entry |
Protein Research Foundation |
prf||name |
SWISS-PROT |
sp|accession|entry name |
Brookhaven Protein Data Bank |
pdb|entry|chain |
Patents |
pat|country|number |
GenInfo Backbone Id |
bbs|number |
General database identifier |
gnl|database|identifier |
NCBI Reference Sequence |
ref|accession|locus |
Local Sequence identifier |
lcl|identifier |
2、FASTQ
FASTA格式主要是把序列存储到数据库中的一种格式,但是它不适合储存我们刚刚测到的测序数据。因为它没有序列的质量信息。那一般带有测序质量信息的FASTQ格式就成了储存测序数据的常用格式。
FASTQ是一种同样是一种基于文本的存储生物序列和对应碱基(或氨基酸)质量的文件格式,后缀名通常为.fastq 或者.fq。与fasta不相同的是,它除了存储序列本身外还存储了序列中每个单元所对应的质量分数,所以fastq格式通常用于高通量测试数据的存储。
FASTA文件格式:
- 第一行由'@'开始,后面跟着序列的描述信息,这点跟FASTA格式是一样的。
- 第二行是序列。
- 第三行由'+'开始,后面也可以跟着序列的描述信息。
- 第四行是第二行序列的质量评价(测序的质量评价),字符数跟第二行的序列是相等的。Q=-10lgP ,其中P代表该碱基被测序错误的概率。
特别说明:
对于每个碱基的质量编码标示,不同的软件采用不同的方案,目前常见有两种:
1)Sanger,Q值的范围从0到92,对应的ASCII码从33到126,但是对于测序数据(raw read data)质量得分通常小于60,序列拼接或者mapping可能用到更大的分数。
2)Illumina 1.3+,Q值的范围从0到62对应的ASCII码从64到126,低于测序数据,得分在0到40之间;
例1:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
- 第一行是@字母开头的序列标识符,类似于FASTA的第一行信息
- 第二行是原始的序列信息
- 第三行是+字母开头,后面是序列标识符或者是描述信息,或者什么都不加。
- 第四行是质量信息,对于每一条序列,其每一个碱基都有一个对应的测序质量值,和第二行的序列相对应,根据评分体系的不同,每个字符的含义表示的数字也不相同,通常用ASCII码的排序来表示质量值,下面是每个质量值排列,从左向右递增:
!"#$%&'()*+,-./0123456789:;<=>?
@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
例2:
@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTT
+HWUSI-EAS100R:6:73:941:1973#0/1
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC6
- 第一行以@开头,后面是reads的ID以及其他信息。HWUSI-EAS100R代表Illumina设备名称,6代表flowcell中的第六个lane,73代表第六个lane中的第73个tile,941:1973代表该read在该tile中的x:y坐标信息;#0,若为多样本的混合作为输入样本,则该标志代表样本的编号,用来区分个样本中的reads;/1代表paired end中的前一个read。
- 第二行为read的原始序列。
- 第三行以“+”开头,跟随着该read的名称(一般于@后面的内容相同),但有时可以省略,但“+”一定不能省。
- 第四行代表reads的质量。一般地,碱基质量从0-40,既ASCii码为从 “!”(0+33)到“I”(40+33)。Q=-10lgP ,其中P代表该碱基被测序错误的概率
例3:
ASCII码表如下:
3、GFF
GFF(General Feature Format)是一种用于描述基因或者其它序列元素的文件格式,简单来说是用于基因或者基因组注释的一个文件格式。
正是由于有统一的格式来表示基因等元素,使得GFF格式的文件被广泛的使用与mapping与基因组数据可视化方面,因为它是一种简单的、方便的对于DNA、RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的那里到那里是基因,已经成为序列注释的通用格式,比如基因组的基因预测,许多软件都支持输入或者输出GFF格式。
以GFF3文件为例,GFF3文件中每一行为基因组的一个属性,分为9列,以TAB分开:
##gff-version 3
ctg123 . exon 1300 1500 . + . ID=exon00001
ctg123 . exon 1050 1500 . + . ID=exon00002
ctg123 . exon 3000 3902 . + . ID=exon00003
ctg123 . exon 5000 5500 . + . ID=exon00004
ctg123 . exon 7000 9000 . + . ID=exon00005
然后每一列的属性名称如下:
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | | ------------------ | ----------------- | ----------
-- | ---------------- | -------------- | ----- | ------ | ----- | ---------- | | reference
sequence | annotation source | feature type | start coordinate | end coordinate | score |
strand | frame | attributes |
- 参照序列:指出注释的对象。如一个染色体,克隆或片段。可以有多个参照序列
- 注释来源:注释的来源。如果未知,则用点代替
- 特征类型:属性的类型,一般有通用的标准
- 起点:属性对应片段的起点。从1开始
- 终点:属性对应片段的终点
- 得分:针对一些量化的属性来表示程度得分
- 链:+表示正链,-表示负链,.表示不指定
- 步长:通常是编码蛋白质制定下一密码子开始位置。
- 属性:一个包含众多属性的列表。格式为(tag=value),不同属性之间以分号相隔
4、BED
BED(Browser Extensible Data)格式也是一种常用的用于基因注释的数据格式。BED格式数据有专门开发的工具bedtools来专门处理,和之前提到的GFF文件有很多相似的地方。
BED文件示例如下:
chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0
chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0
chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0
chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0
chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255
chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255
chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255
chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0
chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255
BED文件每行至少包括chrom,chromStart,chromEnd三列(必选);另外还可以添加额外的9列(可选)。
必选的三列:
- chrom:染色体或者是scaffold的名称,或scaffold是比染色体小一点的组装单位。
- chromStart:染色体或scaffold中特征的起始位置。通常第一个碱基编号为0。
- chromEnd:染色体或scaffold中特征的结束位置。
9个可选的BED字段:
- name:定义每一行属性的名称
- score:得分在0到1000之间,如果useScore参数为1,则得分是指灰度级别
- strand:表示链的方向,+表示正向,或者-表示负向
- thickStart: 起始位置,例如,基因显示中的起始密码子
- thickEnd:终止位置,例如:基因终止编码位置
- itemRgb:RGB形式的RGB值,例如(255,255,255)。但是需要 itemRgb属性设置为On
- blockCount:BED行中的外显子数目
- blockSizes: 用逗号分割的外显子的大小, 对应于blockCount的数目
- blockStarts:用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应
5、SAM/BAM
SAM(sequence alignment map)是一种序列比对的文件格式,Sam格式是高通量测序数据分析的常用格式,因为它可以快速查找与坐标重叠的比对(它有记录一些序列索引信息),并且是一种高效的存储方式。
同时Sam格式也是是目前最常用的存放比对或联配数据的格式。无论是重测序,还是转录组,还是表观组,几乎所有流程都会产生SAM/BAM文件作为中间步骤,用于接下来分析。
Bam就是Sam格式的二进制文件,是一种通用的格式,由于Sam格式文件大小通常是十分巨大的,所以为了减少存储量等因素而将Sam转换为二进制格式以便于分析。
Sam格式数据可以分为两部分:注释信息(header section)和比对结果部分(alignment section).
a)注释信息:
注释信息可有可无,都是以@开头,用不同的tag表示不同的信息,主要有以下几种格式:
- @HD,说明符合标准的版本、对比序列的排列顺序。VN是格式版本;SO表示比对排序的类型,有unknown(default),unsorted,queryname和coordinate几种。
- @SQ,参考序列说明。SN:参考序列名字。LN:参考序列长度。这些参考序列决定了比对结果sort的顺序
- @RG,比对上的序列(read)说明。Read Group。1个sample的测序结果为1个Read Group。
- @PG,使用的程序说明。比对所使用的软件及版本,这个例子是hisat2,也有其他类似软件如bwa
- @CO,任意的说明信息。
b)比对结果部分:
每一行表示一个片段的比对信息,包括11个顺序固定的必选字段和一个可选的字段,字段之间用tag分割。这11个字段包括:
- QNAME:比对片段的(read)的名称信息。
- FLAG:位标识,表明比对类型:paring,strand,mate strand等等。
- RNAME:比对上的参考序列名。
- POS,position缩写,read比对到参考序列上,第一个碱基所在的位置,没匹配上设置为0。
- MAPQ:Mapping quality缩写,比对的质量分数,越高说明位置越唯一且可信度越高。
- CIGAR:(Compact Idiosyncratic Gapped Alignment Report),简要比对信息表达式,其以参考序列为基础,使用数字加字母表示比对结果,比对结果信息,匹配碱基数,可变剪接等等。
- RNEXT:下一个片段比对上的参考序列的编号,没有另外的片段,这里是*,同一个片段,用=**。
- PNEXT:下一个片段比对上的位置,如果不可用,此处为0。
- TLEN:观察到的Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,不可用为0。
- SEQ:序列片段的序列信息,如果不存储此类信息设置为*。
- QUAL:序列的质量信息,格式同FASTQ一样,read质量的ASCII编码。
12.可选字段(optional fields):格式如:TAG:TYPE:VALUE,其中TAG有两个大写字母组成,每个TAG代表一类信息,每一行一个TAG只能出现一次,TYPE表示TAG对应值的类型,可以是字符串、整数、字节、数组等。
可选字段如下表所示TAG:TYPE:VALUE:
比对结果部分 11列的填写规则:
列数 |
列名 |
类型 |
填写规则/ |
1 |
QNAME |
String |
[!-?A-~]{1,255} |
2 |
FLAG |
Int |
[0,2^16 -1] |
3 |
RENAME |
String |
*|[!-()+-<>-][!-]* |
4 |
POS |
Int |
[0,2^29 -1] |
5 |
MAPQ |
Int |
[0,2^8 -1] |
6 |
CIGAR |
String |
*|([0-9]+[MIDNSHPX=])+ |
7 |
MRNM |
String |
*|=|[!-()+-<>-][!-]* |
8 |
MPOS |
Int |
[0,2^29 -1] |
9 |
TLEN |
Int |
[-2 29 +1,2 29 -1] |
10 |
SEQ |
String |
*|[A-Za-z=.]+ |
11 |
QUAL |
String |
[!-~]+ |
第一列:QNAME | 表示对比序列的名称,即片段的编号。 |
第二列:FLAG |
数值结果如下: 1(01)该read是成对的paired reads中的一个。标示对应的二进制为01,标示read有多个测序数据,一般理解为有双端测序数据,另一条没有过滤掉; 4(100)该read没比对到参考序列上。 8(1000)与该read成对的matepair read没有比对到参考序列上。 16(10000)该read其反向互补序列能够比对到参考序列 32(100000)与该read成对的matepair read其反向互补序列能够比对到参考序列 64(1000000)在paired reads中,该read是与参考序列比对的第一条 128(10000000)在paired reads中,该read是与参考序列比对的第二条 256(100000000)该read是次优的比对结果 512(1000000000)该read没有通过质量控制 1024(10000000000)由于PCR或测序错误产生的重复reads 2048(100000000000)补充匹配的read 该列数值如果不是以上数字中的一个,那么它可能是某几个的和,由于是二进制表示,所以在对应位置的数字将会是1,方便机器统计该条序列匹配的情况 |
第三列:RNAME |
表示read比对的那条序列的序列名称(名称与头部的@SQ相对应),如果这列是“*”认为这条read没有比对上的序列,则这一行的第四,五,八,九 列是“0”,第六,七列与该列是相同的表示方法 |
第四列:POS |
表示read比对到RNAME这条序列的最左边的位置,如果该read能够完全比对到这条序列(CIGAR string为M)则这个位置是read的第一个碱基比对的位置,如果该read的反向互补序列比对到这条序列,则这个位置是read的反向互补序列的第一个碱基比对的位置,所以无论该read是正向比对到该序列,或是其反向互补序列比对到该序列,比对结果均是最左端的比对位置 |
第五列:MAPQ |
表示为mapping的质量值,该值的计算方法是mapping的错误率的-10log10值,之后四舍五入得到的整数,如果值为255表示mapping值是不可用的,如果是unmapped read则MAPQ为0,一般在使用bwa mem或bwa aln(bwa 0.7.12-r1039版本)生成的sam文件,第五列为60表示mapping率最高,一般结果是这一列的数值是从0到60,且0和60这两个数字出现次数最多 |
第六列:CIGAR |
reads mapping到第三列序列的mapping状态,对于mapping状态可分为以下几类: M:alignment match ( match or mismatch) 表示read可mapping到第三列的序列上,则read的碱基序列与第三列的序列碱基相同,表示正常的mapping结果,M表示完全匹配,但是无论reads与序列的正确匹配或是错误匹配该位置都显示为M I:表示read的碱基序列相对于第三列的RNAME序列,有碱基的插入 D:表示read的碱基序列相对于第三列的RNAME序列,有碱基的删除 N:表示可变剪接位置,表示skipped,跳过这段区域。 P:padding (silent deletion from padded reference),表示padding(填补)。 S:soft clipping (clipped sequences present in SEQ)表示被剪切的序列存在于序列中。S 一般会和H成对出现,当有H出现时,一定会有一个与之对应的S出现 H:hard clipping (clipped sequences NOT present in SEQ)表示被剪切的序列不存在于序列中。H 只出现在一条read的前端或末端,但不会出现在中间, clipped:均表示一条read的序列被分开,之所以被分开,是因为read的一部分序列能匹配到第三列的RNAME序列上,而被分开的那部分不能匹配到RNAME序列上。 =:表示正确匹配到序列上 X: 表示错误匹配到序列上 S 可以单独出现,而H必须有与之对应的S出现时才可能出现,不可在相同第一列的情况下单独出现 N 如果是mRNA-to-genome,N出现的位置代表内含子,其它比对形式出现N时则没有具体解释M/I/S/=/X:这些数值的加和等于第10列SEQ的长度 |
第七列:MRNM |
这条reads第二次比对的位置,在利用bwa mem产生sam文件时 如果该列是“”而第3列RNAME不是“”则表示该reads比对到第3列显示序列名的序列上,而没有比对到其他位置,在利用bwa aln及bwa sampe比对生成的sam文件,如果和上述情况相同,则第7列为“=”,上述情况均表示该reads只比对到这一个位置。如果第3列RNAME和第7列MRNM都为“*”,则说明这条reads没有匹配上的序列,如果这条reads匹配两个序列,则第一个序列的名称出现在第3列,而第二个序列的名称出现在第7列 |
第八列:MPOS |
该列表示与该reads对应的mate pair reads的比对位置,如果这对pair-end reads比对到同一条reference序列上,在sam文件中reads的id出现2次,Read1比对的第4列等于Read2比对的第8列。同样Read1比对的第8列等于Read2比对的第4列。例如: 第1列(Read id)····第4列(Read1比对位置)····第8列(mate-pair reads比对位置) 22699:1759····124057649····124057667 22699:1759····124057667····124057649 相同的reads id一个来自Read1文件,一个来自Read2文件,第4列和第8列是对应的。 表示下一个片段比对上的位置,如果不可用,此处为0。 |
第九列:TLEN |
signed observed Template LENgth (可以理解为文库插入片段长度) 如果R1端的read和R2端的read能够mapping到同一条Reference序列上(即第三列RNAME相同),则该列的值表示第8列减去第4列加上第6列的值,R1端和R2端相同id的reads其第九列值相同,但该值为一正一负,R1文件的reads和R2文件的reads,相同id的reads要相对来看。在进行该第列值的计算时,如果取第6列的数值,一定要取出现M的值,S或H的值不能取。 表示Template的长度。如果第八列大于第四列,则为正数,否则负数。 |
第十列:SEQ |
表示序列片段的序列信息,(注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度),表示read的碱基序列,如果是比对到互补链上则是反转互补序列。 |
第十一列:QUAL |
表示read的质量,用ASCII编码表示。 |
例1:
头部区域
@HD VN:1.0 SO:unsorted
@SQ SN:17 LN:83257441
@RG ID:sample01
@PG ID:hisat2 PN:hisat2 VN:2.1.0 CL:/home/bio/bin/hisat2/hisat2-align-s --wrapper basic-0 -c GTGCTGAACGACGAGGACTGCCGGGAGTTCCCCTGGCAC
主体部分介绍,下面是一行文件
FCC0YG3ACXX:2:1103:1572:139769#GCTTAATG 99 chr10 60001 0 90M = 60390 479
GAATTCCTTGAGGCCTAAATGCATCGGGGTGCTCTGGTTTTGTTGTTGTTATTTCTGAATGACATTTACTTTGGTGCTCTTTATTTTGCG
CCCFFFFFHHHHHJJJJJJJJIJJJJJJJ?HHGIJJJBFHIJIJIDHIHIEHJJIJJIJJJHHGHHHFFFFFFEDCEEECCDDDDEECDD
XT:A:R NM:i:0 SM:i:0 AM:i:0 X0:i:2 X1:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:90
XA:Z:chr18,+14415,90M,0; RG:Z:120618_I245_FCC0YG3ACXX_L2_SZAXPI010030-30
拆分
1:FCC0YG3ACXX:2:1103:1572:139769#GCTTAATG
2:99
3:Chr10
4:60001
5:0
6:90M
7:=
8:60390
9:479
10:GAATTCCTTGAGGCCTAAATGCATCGGGGTGCTCTGGTTTTGTTGTTGTTATTTCTGAATGACATTTACTTTGGTGCTCTTTATTTTGCG
11:CCCFFFFFHHHHHJJJJJJJJIJJJJJJJ?HHGIJJJBFHIJIJIDHIHIEHJJIJJIJJJHHGHHHFFFFFFEDCEEECCDDDDEECDD
12:XT:A:R NM:i:0 SM:i:0 AM:i:0 X0:i:2 X1:i:0 XM:i:0 XO:i:0 XG:i:0 MD:Z:90 XA:Z:chr18,+14415,90M,0; RG:Z:120618_I245_FCC0YG3ACXX_L2_SZAXPI010030-30
6、VCF
VCF(Variant Call Format)是用于描述SNP,INDEL和SV结果的文本文件,是存储变异位点的标准格式
以下是VCF格式的一个样例:
这个数据可以包括两个部分:
- 注释部分:##表示,可以找到接下来每一个位点的描述的tag
- 主体部分:包含10列数据,主题部分每一行代表一个variant的信息
- CHROM : 参考序列名称
- POS : variant所在的位置,如果是INDEL的话,位置是INDEL的第一个碱基位置
- ID : variant的ID。同时对应着dbSNP数据库中的ID,若没有,则默认使用.
- REF : 参考序列的碱基
- ALT : variant的碱基
- QUAL : variants的质量。Phred格式的数值,代表着此位点是纯合的概率,此值越大,则概率越低,代表着次位点是variants的可能性越大(表示变异碱基的可能性)
- FILTER : 用于表示次位点是否要被过滤掉
- INFO : variant的相关信息,这里有很多的内容
- FORMAT : variants的格式和基因型的信息
【生信】常见测序数据格式相关推荐
- 数据格式_初识生信常见数据格式知多少?
?点击上方蓝字把我们设为星标吧✴ 前言 刚刚踏入生信圈的你,有没有因为各种数据格式而困惑过?比如基因组Fasta序列,又或者二代测序的Fastq数据.这些数据有哪些特点?又有哪些日常操作是生信小白必须 ...
- [生信]甲基化测序的三种数据
甲基化测序的 WGBS和RRBS,还有芯片 全基因组DNA甲基化测序(Whole Genome Bisulfite Sequencing,WGBS) 是 DNA 甲基化研究的金标准,它通过 Bisul ...
- 生信常见文件格式 bed
bed文件是记录基因组位置信息的标准文件格式,同时也用于存储与位置相关的信息,例如在ChIP-Seq 分析中,长以bed文件存储检测信号强度的信息.结构变异检测(SV)结果也可以用bed文件或bedp ...
- 肿瘤/非肿瘤/单基因/单细胞/非编码:史上最全生信分析攻略!!!
解读生信之美,探讨每篇文献背后的逻辑 非肿瘤专栏:条条大路通罗马 1.4+非肿瘤生信分析+铁死亡/焦亡/自噬/代谢/免疫的万能钥匙 短评:适合一些热门机制如铁死亡/焦亡/自噬等在非肿瘤疾病中的研究 2 ...
- 推荐我们在B站免费的生信入门基础课程|测序原理,GO/GSEA/WGCNA
点击**阅读原文**直达! 经典升级 | 第 17 期高级转录组分析和R数据可视化火热报名中!!! Nature重磅综述 |关于RNA-seq,你想知道的都在这 RNA-seq最强综述名词解释& ...
- 生信软件 | FastQC(质量控制,查看测序质量)
生信软件 | FastQC 介绍 高通量测序数据的高级质控工具 输入FastQ,SAM,BAM文件,输出对测序数据评估的网页报告 安装 conda install fastqc 这里需要安装Conda ...
- 从测序到宏基因组:聚焦菌群生信分析方法最前沿
今天是第2439期日报. Nature子刊:基于三代测序的宏基因组分析助力完整微生物进化研究 Nature Methods[IF:47.99] ① 基于Pacific Biosciences或Oxfo ...
- .md是什么文件_生信中常见的数据文件格式
TCGA | GEO | 文献阅读 | 数据库 | 理论知识 R语言 | Bioconductor | 服务器与Linux 前面我们介绍了各种测序技术的原理:illumina.Sanger.第三代和第 ...
- linux怎么查看一个bam文件,生信分析过程中这些常见文件的格式以及查看方式你都知道吗?...
原标题:生信分析过程中这些常见文件的格式以及查看方式你都知道吗? 生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据 fastq 之外,还需要准备基因组文件 fasta 格式和基因注释文件 ...
最新文章
- 【数据结构】树状数组 例题剖析
- linux系统时间相关
- 机器学习中的训练集,验证集及测试集的关系
- python manager是进程安全的么_Python在进程之间共享锁
- .NET资源站点汇总
- 使用abd工具查看安卓设备cpu处理器是32位或64位
- web网页设计实例作业 我的家乡- 达州(4页) HTML+CSS+JavaScript dreamweaver作业静态HTML网页设计模板
- 搭建以图搜图检索系统
- 学会查看tomcat的日志文件
- 流畅安装、简单使用annie下载B站视频
- windows配置Redis访问时只能用localhost不能用ip访问
- NetSuite Account Register报表详解
- CMMI(能力成熟度集成)四个等级
- idea修改代码提示时间
- 【ZCMU1603】卡斯丁狗的战舰帝国(并查集)
- 使用Maven控件proguard-maven-plugin给可执行jar文件混淆
- cocos2dX打包图文详解
- linux刷新本地dns命令_Linux网络命令
- 电脑显示无法启动程序 因为计算机丢失,电脑显示无法启动此程序丢失.dll文件怎么办...
- 【庖丁解牛】MySQL编译出现报错 : Could not find rpcgen 解决方案