在做生物信息的过程中,经常需要进行各种文件格式。每一种生物软件都有固定的文件格式要求。因此,需要非常每一种数据的文件格式,从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq到bam,从bam到vcf的过程。

fasta文件格式

FASTA文件主要用于存储生物的序列文件,例如基因组,基因的核酸序列以及氨基酸等,是最常见的生物序列格式,一般以扩展名fa,fasta,fna等。fasta文件中,第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的,序列ID部分可以包含注释信息。从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。序列部分可以在一行,也可以分成多行。

>gi|556503834|ref|NC_000913.3|:190-255 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGA
>gi|556503834|ref|NC_000913.3|:337-2799 Escherichia coli str. K-12 substr. MG1655, complete genome
ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTC
TGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCT
GGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATT
TTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCG
TCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAG

fastq文件格式

fastq文件格式是用来存储测序文件的,它是含有quality的fasta文件。

@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA
+
JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
@DJB775P1:248:D0MDGACXX:7:1202:12782:49716
CTCTGCGTTGATACCACTGCTTACTCTGCGTTGATACCACTGCTTAGATCGG
+
IIIIIIIIIIIIIIIHHHHHHFFFFFFEECCCCBCECCCCCCCCCCCCCCCC

  • 第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;

  • 第二行:测序read的序列,由A,C,G,T和N这五种字母构成,这也是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基;

  • 第三行:以‘+’开头,在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);
    第四行:测序read的质量值,这个和第二行的碱基信息一样重要,它描述的是每个测序碱基的可靠程度,用ASCII码表示。

质量值体系

从表中可以看到下限有33和64两个值,我们把加33的的质量值体系称之为Phred33,加64的称之为Phred64(Solexa的除外,它叫Selexa64)。不过,现在一般都是使用Phred33这个体系,而且33也恰好是ASCII的第一个可见字符('!')

sam格式介绍

sam文件主要用来存储短序列比对的结尾,即将测序数据定位到基因组上的表示形式。

第一列:是reads ID
第二列:是flag标记的总和
第三列:比对到参考序列上的染色体号。
第四列:为在参考序列上的位置
第五列:比对的质量值,MAPQ
第六列:代表比对结果的CIGAR字符串
第七列:mate比对到的染色体号,若是没有mate,则是*
第八列:比对到参考序列上的第一个碱基位置
第九列:Template的长度,
第十列:为read的序列
第十一列:为ASCII码格式的序列质量;

VCF文件格式介绍

VCF是Variant Call Format的简称,是一种定义的专门用于存储基因序列突变信息的文本格式。在生物信息分析中会大量用到VCF格式。例如基因组中的单碱基突变,SNP, 插入/缺失INDEL, 拷贝数变异CNV,和结构变异SV等,都是利用VCF格式来存储的。将其存储为二进制格式就是BCF。

1.CHROM [chromosome]: 染色体名称,
2.POS [position]: 参考基因组突变碱基位置,如果是INDEL,位置是INDEL的第一个碱基位置。
3.ID [identifier]: 突变的名称,
4.REF [reference base(s)]:参考染色体的碱基
5.ALT [alternate base(s)]: 与参考序列比较,发生突变的碱基,
6.QUAL [quality]: Phred标准下的质量值
7.FILTER [filter status]:使用其它的方法进行过滤后得到的过滤结果
http://8.INFO

文件格式介绍:https://genome.ucsc.edu/FAQ/FAQformat.html#format1

发布于 4 小时前

生信分析必须了解的4种文件格式相关推荐

  1. 生信分析流程构建的几大流派

    导言 构建生信分析流程是生物信息学从业人员必备的技能之一,对该项能力的评估常常是各大公司招录人员的参考项目之一. 在进行 ngsjs 项目时,我做了一张示意图来表示一些高通量测序数据分析项目重现性的要 ...

  2. 这是入门生信,学习生信分析思路和数据可视化的首选?

    封面来源:https://www.zhihu.com/question/304747766 常规转录组是我们最常接触到的一种高通量测序数据类型,其实验方法成熟,花费较低,是大部分CNS必备的技术,以后 ...

  3. 找不到r低版本_R 语言与数据挖掘直播班开始招生,生信分析帮你发高分文章

    数据单薄很难支撑文章内容?数据有了不知道怎么处理作出高级的图片?这个时候需要的是生信分析--深度的数据挖掘和分析处理,可以帮助临床医生通过数据处理得到自己想要的信息,更快速地发文章. 学习哪种生信分析 ...

  4. mirna富集分析_经验之谈丨生信分析文章套路原来这么简单!

    近两年,不做实验或者仅需要少量实验的生物信息学分析文章,发表量越来越多.如果利用数据库检索,高效的发出一篇文章.是科研工作者关注的话题,今天我们就用一篇生信分析的文章作为切入点,来谈谈生信分析文章的套 ...

  5. r语言python0基础_万丈高楼平地起,从零开始学R语(生信分析向,R语言基础)...

    一.R语言的安装 我所做的R语言学习主要是为应对工作上的生信分析,如果你是往这个方向走,那么这篇文章很大可能会帮助你.如果你也是有python基础的话,那我写的可能会更対你口味. 不过现在看到这篇文章 ...

  6. cluego使用说明_生信分析绘图神器,你值得拥有!

    GO和KEGG分析是最常用的生信分析方法,在SCI论文中也经常见到,那么你能想到的GO和KEGG分析结果的展示方法有哪些? 条形图? 条形图2? 饼状图? 表格? 相比于上面这些,这样的网络图展示起来 ...

  7. 一览生信分析的各种工作环境—Linux子系统、双系统、虚拟机和Docker

    " 本文围绕计算机操作系统,概述了当下各种生信分析的工作环境." 一文掌握Conda软件安装:虚拟环境.软件通道.加速solving.跨服务器迁移 01 - Linux子系统 Wi ...

  8. RNA-seq生信分析流程

    RNA-seq生信分析流程 RNA-seq是近些年发展起来的针对转录组的测序技术,其能够获得mRNA.smallRNA以及各种非编码RNA的序列. 在不同细胞或者在相同细胞的不同发育阶段细胞中这些RN ...

  9. 图形化开放式生信分析系统开发- 1基本需求分析及技术实现

    图形化开放式生信分析系统开发- 1基本需求分析及技术实现 起因/背景 软件获取:到官网sliverworkspace.com免费下载个人版,最新版本 2.0.277363 几张图片 下面进入正题,以具 ...

最新文章

  1. 【廖雪峰python入门笔记】list删除元素_pop()
  2. oracle 体系结构及内存管理 13_事务
  3. 关于运算符重载的问题
  4. FileNotFoundError: Could not find module 'xxx.dll'. Try using the full path with constructor syntax.
  5. java中jdbc的封装笔记_JDBC封装学习笔记(三)---面向对象的JDBC,使用preparedStatement...
  6. Linux C 中断言assert()使用简介
  7. 技术干货 | 应用性能提升 70%,探究 mPaaS 全链路压测的实现原理和实施路径
  8. Vue3 --- 安装和使用echarts
  9. mysql自增字段_MySQL自增字段的常用语句
  10. 内部类详解————局部内部类
  11. 磁盘配额超出 linux,使用linux的warnquota命令发送邮件给超出配额的用户
  12. 视差滚动效果原理解析和效果实现
  13. 【网络存储】存储区域网络SAN
  14. 以天下之力成天下之事,菜鸟成物流抗疫主力军
  15. 厉害了!28岁程序员期权过亿,彪悍从字节退休!
  16. LabVIEW辨识颜色小游戏
  17. 编译 LineageOS 源码,并重定义 kernel log
  18. 【Chrome】解决浏览器萤幕画面模糊字体不清楚方法
  19. oracle查询员工表领导级别,emp表中怎么统计每个员工的领导的年薪,并按年薪由高到低排列...
  20. 快醒醒吧!你连基础的JVM运行时内存布局都忘了?Java面试题及解析

热门文章

  1. 基于图像的摄像机姿态估计方法评析
  2. 终于来了,国内首个三维重建系列视频课程,涉及SFM、多视图几何、结构光、单目深度估计等...
  3. MSCKF-Based Visual-Wheel Odometry 轮速视觉融合里程计
  4. QT+VS打包发布流程该怎么做?
  5. Ajax---使用json数据格式输出数据
  6. RDKit | 基于片段的分子生成(骨架A+骨架B)
  7. DeepChem | DeepChem的图卷积特征化器
  8. varchar汉字占几个字符_常用字符编码介绍
  9. 数据科学工具 Jupyter Notebook 教程(二)
  10. SEL|世界土壤日-土壤生态学Nico Eisenhauer 教授讲座