WeDiscover发起基因检测技术经典书籍共读活动,第一季共读李金明教授的《高通量测序技术》,今天解读第四章前两节关于生物信息学的发展,常用数据存储格式及分析软件

随着高通量测序技术的快速发展,其已由实验室研究逐步应用于临床。高通量测序检测对临床患者的诊断、治疗及预后判断具有重要的指导意义。高通量测序检测流程可分为实验室操作(称为湿实验)和生物信息学分析(称为干实验)。高通量测序技术离不开生物信息学分析,同时,生物信息学的发展也促进了高通量测序技术在临床中的应用。随着各种新的生物信息学软件算法的开发,高通量测序检测在临床应用的准确性和应用范围也在不断增加。

生物信息学包含的范围很广,从早期以DNA序列分析和数据库的建立到现在的比较基因组学、功能基因组学、代谢网络分析、基因表达谱分析、蛋白质结构和功能分析及药物靶点筛选等都属于生物信息学的范畴。

以下主要分享生物信息学发展简史、主要研究内容、数据格式及常用分析软件。

01

生物信息学的发展

生物信息学是一门新兴的交叉学科。随着生物信息学的发展,目前主要围绕基因的功能研究领域进行,下文简称生信。生信与传统基因检测方法最大的不同之处就是其需要复杂的生信分析将大量原始序列信息转化为可靠的变异信息

生信是一门以生物学、计算机科学、数学为主的多学科交叉的新兴学科,主要利用计算机科学和数学为研究手段对生命科学领域研究出来的大量实验数据进行获取、加工、存储、检索、比较、分析,从而达到更好地解释数据的目的。生信的出现极大推动了分子生物学的发展,在生物学、医学领域都有着十分广泛的应用。

1956年

在美国田纳西州特林堡(Gatlinburg)召开的“生物学中的信息理论讨论会”上,首次产生了生物信息学的概念

20世纪60年代

生物化学技术的发展,产生了大量的生物分子序列数据,促使科学家应用计算机技术解决生物学问题,特别是与生物分子序列相关的问题。在发现同源蛋白序列存在相似性后,出现了探究蛋白序列之间相似性的序列比对算法,通过序列比较确定序列的功能及序列分类关系成为序列分析的主要工作。这一时期出现了一系列著名的序列比对算法,如FASTA,BLAST等。

20世纪80年代后

出现了如核酸数据库GenBank,蛋白质数据库SWISS-PROT等一批生物信息数据库,以及美国国立生物技术信息中心(NCBI),这些数据库的出现对生命科学研究产生了深远的影响。这是生物信息学形成的早期阶段。

20世纪90年代后

科学家们开始大规模的基因组研究。1986年,出现基因组学(genomics)概念,研究基因组的作图,测序和分析的科学。1990年,人类基因组计划(human genome project,HGP)启动,这个计划揭开了组成人体约3万个基因的30亿个碱基对的全序列。生物信息学在人类基因组研究计划中起了重要的推动作用,同时这也是在生物信息学形成和发展中具有决定性意义的事件。

02

生物信息学的研究范围

生物信息学的发展大致经历了前基因组时代、基因组时代和后基因组时代。

前基因组时代

20世纪90年代之前为“前基因组时代”,该阶段主要是各种序列比对算法的建立、生物数据库的建立、检索工具的开发、DNA和蛋白质序列的分析等

基因组时代

20世纪90年代后至2001年,人类基因组计划期间,为基因组时代,该阶段以进行大规模基因组测序、基因识别和发现等为主要任务

后基因组时代

随着人类基因组计划的完成及相关转录组、蛋白质组、代谢组、表观基因组等计划的开展和NGS技术的发展,目前的生物信息学研究已从早期以数据库的建立和DNA序列分析为主的阶段转移到后基因组时代。基因组的研究重心由基因组的结构向基因的功能转移,从而产生了比较基因组学、功能基因组学、代谢网络分析、基因表达谱分析、蛋白质结构和功能分析及药物靶点筛选等领域

03

生信数据存储格式

生信领域的研究对象主要是各种序列数据、注释数据等大数据,各种各样的生物医学大数据必然涉及各种数据的存储。每个行业都有其行业标准,同时为了方便数据分析,生信涉及的数据都有其特定的存储格式标准。下面介绍常用的几种数据格式。

01

FASTA

序列数据,例如DNA序列,RNA序列的特点是具有一定的顺序关系

FASTA就是对这类有顺序的序列数据进行存储的一种格式。

文件后缀为.fasta,.fa或者.fa.gz。

FASTA格式主要由两部分构成:序列注释信息和具体的序列信息。

序列注释信息开始于:“>”,接着序列名称和一些注释信息。为了保证分析软件能够区分每条序列,单个序列标识必须具有唯一性。紧接下一行是具体的序列信息,具体序列信息只允许使用既定的核苷酸或者氨基酸编码符号。如图线粒体参考序列文件。

02

FASTQ

FASTQ是保存生物序列和其测序质量信息的标准格式

序列和质量信息都用ASCII字符表示。最初由Sanger开发,目的是将FASTA序列与质量数据放在一起,目前已经成为高通量测序结果的标准存储格式。

文件后缀为.fastq,.fq或者.fq.gz。

如上图,FASTQ文件每个序列有4行。

第一行是read的名字,测序标识及相关的描述信息,以“@”开头,根据测序时的信息转换过来的,是每一条read的唯一标识符,同一FASTQ文件不会重复出现,在不同的FASTQ文件中也不会重复。

第二行是测序的read的序列信息,由A、T、G、C、N5种字母组成,N代表测序时无法被识别的碱基

第三行以“+”开头,后面信息同第一行或者什么也不加(节省存储空间)。

第四行是read的质量信息,与第二行的序列相对应,每一个碱基都有一个质量评分,用ASCII码表示。

碱基质量值(Phred quality score,用Q表示),即碱基错误率P的对数值,它描述的是每个碱基测序的可靠程度。例如,一个碱基的正确率是99%,则质量值就是20(俗称Q20),如果是99.9%,质量值就是30,即Q30。计算公式为:P= -log10P。在Illumina测序平台中,P值是由测序后碱基识别(base calling)软件算法根据测序图像数据点的清晰程度计算的,P值与测序时的多个因素有关,体现了该碱基被识别错误的可能性。

03

BAM & SAM文件

FASTQ文件比对到参考基因组后,比对结果以SAM或者BAM文件格式存储。SAM的全称是sequence alignment/map format,BAM是SAM的二进制文件,B取自binary,BAM存储空间更小,约为原来SAM的1/6。

SAM是一种序列比对存储格式,由Sanger制定,以制表符为分隔符的文本格式,主要用于表示测序序列比对到基因组上的结果。由于SAM格式是记录最全面的序列比对信息,且后续开发的各种简单易用的SAM格式处理软件,现在基本上所有的短序列比对数据都用SAM格式存储,目前已成为默认标准。

SAM由头文件(header)和比对结果(record)两部分组成。头文件由行数以@ 起始的注释构成,用不同的tag表示不同的信息,主要有@SQ:比对的参考序列信息;@RG:序列分组的信息,一般为laneID;@PG:比对程序使用的参数;@SM:样本ID信息。

SAM文件比对结果(record)部分,每一个read只占一行,从左到右被分为12列,分别记录信息如下:

(1)序列或者read的名称,例E00510:569:HCJWCCCX2:1:1104:31649:14265

(2)SMA标记(flag),例如163。为二进制数字,描述序列的比对模式、方向等信息,不同数字代表不同意思。

(3)read比对到的参考染色体。

(4)   read在参考序列5'端起始位置。

(5)MAPQ,描述比对的质量,数字越大,特异性越高。

(6)CIGAR表示read比对的具体情况,记录插入、缺失及错配等比对信息。

(7)配对mate序列比对到的染色体号,“=”表示与该序列的在同一条染色体上,“*”表示该序列无配对序列。

(8)配对mate序列所在染色体上的位置。

(9)DNA模板的长度。

(10)read序列信息。

(11)read碱基质量信息。

(12)比对程序的标记(tag)信息。

04

VCF文件

VCF文件格式是用于描述单核苷酸变异(SNV)、插入或者缺失、结构变异(SV)、拷贝数变异(CNV)等变异的一种文件格式。目前大多数的变异检测软件输出的变异结果都是以VCF格式存储。

VCF文件分为两部分,第一部分为说明文件,第二部分为突变信息。

说明文件各行以2个“#”符号开头,内容是对正文INFO列出现的标签和FORMAT列中的基因型的解释说明。突变信息共10列。

(1)CHROM,表示变异位点所在的染色体。

(2)POS,表示变异位点在参考基因组上的位置。

(3)ID,如果识别出来的单核苷酸多态性(SNP)存在dbSNP数据库中,就会显示dbSNP中相应的rs编号。

(4)REF,变异位点所在的位置,参考基因组中对应的碱基。

(5)ALT,突变后的碱基序列。

(6)QUAL,变异位点的质量值,表示该位点存在变异的可能性,值越高,则变异的可能性越大。

(7)FILTER,理想情况下,QUAL值应该是用所有的错误概率模型计算出来的,可以代表正确的变异位点,但是实际上是做不到的。因此,还需要对原始变异位点做进一步过滤。无论用什么方法对变异位点进行过滤,过滤之后,在FILTER一栏都会留下过滤记录。如果通过过滤标准,FILTER一栏注释为PASS,如果没通过过滤标准,则为提示除PASS外的其他信息,如果是".",说明没有进行任何过滤。

(8)INFO,表示变异的深度,类型,等位基因频率等变异详细描述信息

(9)FORMAT,字段与样本具体信息是对应的,信息由冒号分割。

GT,GQ,DP,HQ分别表示基因型(genotype),基因型质量(genotype quality),片断覆盖度(read depth),单体型质量(haplotype quality)。

(10)样本变异的基因型等信息,通常以":"隔开各个缩写词。不同的变异检测软件可能会有差异。

03

生信分析常用软件

以NGS技术为代表的生物科学研究产生的数据规模越来越大,海量基因组学数据存储、分析需要专业数据处理的硬件和软件。生信分析平台至少需要一台服务器或者计算机集群,并在上面部署必需的生信分析软件,搭建相应的分析流程和相关数据库,以满足生信分析的硬件和软件要求。

生信集群搭建需要的硬件及软件就不介绍了,简单跟大家介绍下生信分析常用的软件。

NGS生信分析软件主要包括NGS数据拆分软件,NGS数据质控软件,序列比对软件,变异识别和注释软件等。

01

数据拆分软件bcl2fastq

Illumina刚下机的数据为bcl格式文件(per-cycle BCL basecall file),但是下游的分析一般都需要fastq格式文件,所以在进行下游分析之前,bcl格式的数据根据样本index拆分为每个样本的fastq文件。Illumina的下机数据拆分,用的就是Illumina官方的软件bcl2fastq

02

数据质控软件

测序数据的质量是影响数据分析的关键,高通量的数据分析首先是质量控制,质控内容包括去接头、过滤低质量reads,去除低质量的3‘和5’端,去除N比例高的reads等。针对NGS数据质控的软件很多,常用的有FastQC,Fastx_toolkit,Trimmomatic,fastp等。

03

序列比对软件

目前有大量的短序列比对软件被开发出来,且各有优点。其中BWA是目前最常用的NGS短序列比对软件,BWA采用的是基于BWT的序列比对算法,对参考基因组进行压缩并建立索引,将测序数据短reads通过查找和回溯定位到参考基因组上,可允许一定的错配,同时支持单端和双端测序数据比对。BWA主要用于NGS短序列与参考基因组之间的定位比对,比对前首先对参考基因组建立索引文件

04

NGS变异识别软件

基因变异的识别一直是一个难点,由于变异类型多样,各种软件针对不同类型的变异都各有优缺点。GATK是由Broad研究所开发的用于NGS数据分析的软件套装,包含一些列分析工具,主要用于识别NGS数据的变异,包括SNV、Indel、CNV。

今天主要分享生信的发展及不同时期生信的研究范围,常用的数据格式及常用的分析软件。下一期,将跟大家分享高通量测序检测数据分析原理和基本流程

作者:JennyWei                编辑:JennyWei

经典共读第一季:《高通量测序技术》活动轨迹

20201016  测序技术的发展历程及趋势

20201030  文库构建原理及特点

20201113   高通量测序原理及特点

20201120  生信的发展,常用数据格式及分析软件

欢迎关注WeDiscover

实验技术 | 生物安全 | 质量管理

生物信息 | 遗传解读 | 运营

生物信息学软件_高通量测序技术|生信的发展,常用数据格式及分析软件相关推荐

  1. 【学习笔记】山东大学生物信息学-05 高通量测序技术介绍 + 06 统计基础与序列算法(原理)

    课程地址:山东大学生物信息学 文章目录 五.高通量测序技术介绍(没有干货) 六.统计基础与序列算法(原理) 6.1 贝叶斯公式及其生物学应用 6.2 二元预测的灵敏度和特异度 6.3 基本序列算法 五 ...

  2. MPB:生态环境中心陈保冬组-基于高通量测序技术的丛枝菌根真菌多样性研究方法...

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  3. Microbiome:利用Nanopore高通量测序技术解析污水处理体系可移动抗性基因组(一作解读)

    文章目录 Microbiome:利用Nanopore高通量测序技术解析污水处理体系可移动抗性基因组 背景解读 结果分析 一.携带抗性基因的质粒和整合性结合元件在污水处理体系抗性组中占主导地位 二.快速 ...

  4. 高通量测序技术的原理及各平台优势和实践应用的分析

    高通量测序技术的原理及各平台优势和实践应用的分析 2020.9.01 2060 随着人类基因组计划(human genome project )在2003年顺利完成,基因组测序技术取得了长足的进步,这 ...

  5. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

  6. Microbiome:利用Nanopore高通量测序技术解析污水处理体系可移动抗性基因组

    Microbiome:利用Nanopore高通量测序技术解析污水处理体系可移动抗性基因组 香港大学张彤教授团队,利用三代Nanopore高通量测序技术解析了污水处理体系可移动抗性基因组,揭示了质粒在抗 ...

  7. 高通量测序技术的应用与挑战

    相比一代测序(Sanger 测序法),高通量测序具有测序快的优点,基本原理是将基因组断成一百多个碱基的短片段,对短片段进行测序,然后序列拼接,但高通量测序准确性较低,测序结果要通过矫正来提高测序准确度 ...

  8. 生物信息学(高通量测序)名词

    什么是高通量测序 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, ...

  9. 341.基于高通量测序的微生物组研究技术简介

    基于高通量测序的微生物组研究技术简介 --微生物组研究,从方案设计到写作套路(一) 作者:王晓雯 凌波微课 版本1.0.2,更新日期:2020年9月22日 微生物组研究的热潮愈演愈烈,已经深入到我们生 ...

  10. 高通量测序与生物信息学面临的挑战

    基因组学与测序技术 高通量测序(High throughput sequencing) 顾名思义,相较于常规测序技术,其通量有显著的提高.核心机理是采用高密度芯片实现并行测序技术,每个点就是一个测序反 ...

最新文章

  1. Kubernetes — Project Layout 与 cmd 入口设计
  2. 北上广Java开发月薪20K往上,该如何做,需要会写什么
  3. Unable to execute dex: Multiple dex files define Lcom/kenai/jbosh/AbstractAttr
  4. C语言代替cmd命令
  5. 征信报告上的逾期记录应该怎么清除?
  6. coherence安装_在Oracle Coherence中分发Spring Bean
  7. 刘知远:NLP研究入门之道(二)走近NLP学术界
  8. 【转】Laplace 算子
  9. 拓端tecdat|R语言蒙特卡洛方法:方差分量的Metropolis Hastings(M-H)、吉布斯Gibbs采样比较分析
  10. 微信开发之图灵机器人API接口调用
  11. tiktok运营全攻略
  12. ‘‘红包来了—红包来了—‘‘Python制作一个微信红包提示系统。
  13. MySQL中登录报错_mysql登录报错 ERROR 1045 (28000)
  14. 方舟:生存进化官服和私服区别
  15. iphone修改app名称_如何更改iPhone App名称100%!
  16. 套壳截图王用户服务协议
  17. 美国依靠美元霸权, 是如何收割世界财富的?
  18. 牛客网实战项目详细到每一步(更新中)
  19. 为什么工程师出身的 CEO 越来越“香”?
  20. Python数据分析 | (27) 重塑和轴向旋转

热门文章

  1. ubuntu安装java虚拟机
  2. 计算机语言入门vfp,VFP基础教程第二章VFP语言基础3
  3. cognos java_cognos与java结合 ?急!急!急!
  4. 涂抹oracle教你,《涂抹Oracle-三思笔记之一步一步学Oracle》出炉手记
  5. Linux内存管理之mmap
  6. 计算机组成与结构 第四版pdf,计算机组成与体系结构(原书第4版)
  7. 60套模板免费送,一秒搞定甘特图
  8. 反编译工具ILSpy下载
  9. window操作Python27
  10. 抖音c语言表白编码,抖音表白脚本-抖音代码表白大全最新完整版 - 极光下载站...