生信分析必须了解的4种文件格式
在做生物信息的过程中,经常需要进行各种文件格式。每一种生物软件都有固定的文件格式要求。因此,需要非常每一种数据的文件格式,从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq到bam,从bam到vcf的过程。
fasta文件格式
FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名fa,fasta,fna等。fasta文件中,第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列ID部分可以包含注释信息。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。序列部分可以在一行,也可以分成多行。
>gi|556503834|ref|NC_000913.3|:190-255 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>gi|556503834|ref|NC_000913.3|:337-2799 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG
fastq文件格式
fastq文件格式是用来存储测序文件的,它是含有quality的fasta文件。
@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA
+
JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
@DJB775P1:248:D0MDGACXX:7:1202:12782:49716
CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG
+
IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC
第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;
第二行:测序read的序列,由A,C,G,T和N这五种字母构成,这也是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基;
第三行:以‘+’开头,在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);
第四行:测序read的质量值,这个和第二行的碱基信息一样重要,它描述的是每个测序碱基的可靠程度,用ASCII码表示。
质量值体系
从表中可以看到下限有33和64两个值,我们把加33的的质量值体系称之为Phred33,加64的称之为Phred64(Solexa的除外,它叫Selexa64)。不过,现在一般都是使用Phred33这个体系,而且33也恰好是ASCII的第一个可见字符('!')
sam格式介绍
sam文件主要用来存储短序列比对的结尾,即将测序数据定位到基因组上的表示形式。
第一列:是reads ID
第二列:是flag标记的总和
第三列:比对到参考序列上的染色体号。
第四列:为在参考序列上的位置
第五列:比对的质量值,MAPQ
第六列:代表比对结果的CIGAR字符串
第七列:mate比对到的染色体号,若是没有mate,则是*
第八列:比对到参考序列上的第一个碱基位置
第九列:Template的长度,
第十列:为read的序列
第十一列:为ASCII码格式的序列质量;
VCF文件格式介绍
VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。
1.CHROM [chromosome]: 染色体名称,
2.POS [position]: 参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置。
3.ID [identifier]: 突变的名称,
4.REF [reference base(s)]:参考染色体的碱基
5.ALT [alternate base(s)]: 与参考序列比较,发生突变的碱基,
6.QUAL [quality]: Phred标准下的质量值
7.FILTER [filter status]:使用其它的方法进行过滤后得到的过滤结果
http://8.INFO
文件格式介绍:https://genome.ucsc.edu/FAQ/FAQformat.html#format1
发布于 4 小时前
生信分析必须了解的4种文件格式相关推荐
- 生信分析流程构建的几大流派
导言 构建生信分析流程是生物信息学从业人员必备的技能之一,对该项能力的评估常常是各大公司招录人员的参考项目之一. 在进行 ngsjs 项目时,我做了一张示意图来表示一些高通量测序数据分析项目重现性的要 ...
- 这是入门生信,学习生信分析思路和数据可视化的首选?
封面来源:https://www.zhihu.com/question/304747766 常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,是大部分CNS必备的技术,以后 ...
- 找不到r低版本_R 语言与数据挖掘直播班开始招生,生信分析帮你发高分文章
数据单薄很难支撑文章内容?数据有了不知道怎么处理作出高级的图片?这个时候需要的是生信分析--深度的数据挖掘和分析处理,可以帮助临床医生通过数据处理得到自己想要的信息,更快速地发文章. 学习哪种生信分析 ...
- mirna富集分析_经验之谈丨生信分析文章套路原来这么简单!
近两年,不做实验或者仅需要少量实验的生物信息学分析文章,发表量越来越多.如果利用数据库检索,高效的发出一篇文章.是科研工作者关注的话题,今天我们就用一篇生信分析的文章作为切入点,来谈谈生信分析文章的套 ...
- r语言python0基础_万丈高楼平地起,从零开始学R语(生信分析向,R语言基础)...
一.R语言的安装 我所做的R语言学习主要是为应对工作上的生信分析,如果你是往这个方向走,那么这篇文章很大可能会帮助你.如果你也是有python基础的话,那我写的可能会更対你口味. 不过现在看到这篇文章 ...
- cluego使用说明_生信分析绘图神器,你值得拥有!
GO和KEGG分析是最常用的生信分析方法,在SCI论文中也经常见到,那么你能想到的GO和KEGG分析结果的展示方法有哪些? 条形图? 条形图2? 饼状图? 表格? 相比于上面这些,这样的网络图展示起来 ...
- 一览生信分析的各种工作环境—Linux子系统、双系统、虚拟机和Docker
" 本文围绕计算机操作系统,概述了当下各种生信分析的工作环境." 一文掌握Conda软件安装:虚拟环境.软件通道.加速solving.跨服务器迁移 01 - Linux子系统 Wi ...
- RNA-seq生信分析流程
RNA-seq生信分析流程 RNA-seq是近些年发展起来的针对转录组的测序技术,其能够获得mRNA.smallRNA以及各种非编码RNA的序列. 在不同细胞或者在相同细胞的不同发育阶段细胞中这些RN ...
- 图形化开放式生信分析系统开发- 1基本需求分析及技术实现
图形化开放式生信分析系统开发- 1基本需求分析及技术实现 起因/背景 软件获取:到官网sliverworkspace.com免费下载个人版,最新版本 2.0.277363 几张图片 下面进入正题,以具 ...
最新文章
- 【廖雪峰python入门笔记】list删除元素_pop()
- oracle 体系结构及内存管理 13_事务
- 关于运算符重载的问题
- FileNotFoundError: Could not find module 'xxx.dll'. Try using the full path with constructor syntax.
- java中jdbc的封装笔记_JDBC封装学习笔记(三)---面向对象的JDBC,使用preparedStatement...
- Linux C 中断言assert()使用简介
- 技术干货 | 应用性能提升 70%,探究 mPaaS 全链路压测的实现原理和实施路径
- Vue3 --- 安装和使用echarts
- mysql自增字段_MySQL自增字段的常用语句
- 内部类详解————局部内部类
- 磁盘配额超出 linux,使用linux的warnquota命令发送邮件给超出配额的用户
- 视差滚动效果原理解析和效果实现
- 【网络存储】存储区域网络SAN
- 以天下之力成天下之事,菜鸟成物流抗疫主力军
- 厉害了!28岁程序员期权过亿,彪悍从字节退休!
- LabVIEW辨识颜色小游戏
- 编译 LineageOS 源码,并重定义 kernel log
- 【Chrome】解决浏览器萤幕画面模糊字体不清楚方法
- oracle查询员工表领导级别,emp表中怎么统计每个员工的领导的年薪,并按年薪由高到低排列...
- 快醒醒吧!你连基础的JVM运行时内存布局都忘了?Java面试题及解析
热门文章
- 基于图像的摄像机姿态估计方法评析
- 终于来了,国内首个三维重建系列视频课程,涉及SFM、多视图几何、结构光、单目深度估计等...
- MSCKF-Based Visual-Wheel Odometry 轮速视觉融合里程计
- QT+VS打包发布流程该怎么做?
- Ajax---使用json数据格式输出数据
- RDKit | 基于片段的分子生成(骨架A+骨架B)
- DeepChem | DeepChem的图卷积特征化器
- varchar汉字占几个字符_常用字符编码介绍
- 数据科学工具 Jupyter Notebook 教程(二)
- SEL|世界土壤日-土壤生态学Nico Eisenhauer 教授讲座