Ensembl是一项生物信息学研究计划,旨在开发一种能够对真核生物基因组进行自动诠释(automatic annotation)并加以维护的软件。该计划由英国维康基金桑格研究院及欧洲分子生物学实验室所属分部欧洲生物信息研究所共同协作运营,这是为了回应人类基因组计划即将完而于1999年启动的 。在存在10年之后,Ensembl的目标仍然是为遗传学家,分子生物学家和其他研究人员研究我们自己的物种和其他脊椎动物和模式生物的基因组而提供集中的资源。Ensembl是几个知名的基因组浏览器之一,用于检索基因组学信息。相似的数据库和浏览器还被发现在美国国家生物技术信息中心NCBI和加州大学圣克鲁兹分校的UCSC基因组浏览器。

Ensembl与NCBI Map Viewer和UCSC的区别

Ensembl与NCBI的NCBI Map Viewer和UCSC是最为常用基因组检索数据库。Ensembl 与NCBI Map Viewer和UCSC最大区别表现在以下5点:

  1. Ensembl的基因数据集是依据mRNA和蛋内序列的数据信息白动注释的。数据来源为新的基因组数据,UniProt/SwissProt和UniProt/TrEMBL的蛋白序列,NCBI的RefSeq里的DNA和蛋白序列和EMBL的cDNA序列。
  2. Ensembl是一个开源(Perl API )的全自动的基因注释软件系统,很多网站都采用Ensembl这套软件系统。
  3. Ensembl拥存其特有的BioMart功能。BioMart可以依据设定的要求对基 因组进行条件性检索,检索的结果吋以以图表的形式给出。
  4. 与其它数据库相整合,比如DAS。
  5. 基因组间的比较分析。

Ensembl的两种注释

ensembl.org网站是常用真核生物参考基因组来源之一,能够对人类基因自动进行注释,包括人类,小鼠,斑马鱼,猪和大鼠等,也包括来自HAVANA的人工注释信息。Ensembl的通用基因注释有两种,一是Ensembl GeneBuild,它是自动化注释,速度快,实时更新,在不同物种上均适用;另一种是Wellcome基金会的 Havana (VEGA)小组的注释,它是手工注释,速度慢,但是准确,它依据的都是已经验证过的mRNA和蛋白序列来注释,比较费时。Havana (VEGA)小组的注释常有以下几种类型:

  • Protein coding: 包括开放阅读框 (ORF).
  • Processed transcript:没有开放阅读框(ORF)
  • Pseudogene:假基因,是指脱氧核糖核酸(DNA)的碱基序列中,一段与其他生物体内已知的基因序列非常相似的片段。但是这个片段由于移码突变或者无义突变破坏了ORF,无法发挥原有的基因功能,也就是无法制造出蛋白质
  • IG gene:免疫球蛋白家族基因
  • TR Gene:T细胞受体基因
  • TEC (To be Experimentally Confirmed)
    详细信息:http://vega.sanger.ac.uk/info/about/gene_and_transcript_types.html

注释文件

我们可以通过Ensembl ftp下载注释文件,注释文件包括gff3gtf两种格式,gtf和gff3的差别和转换可参考(http://blog.nextgenetics.net/?e=27)。Ensembl注释集通常包括了许多的特征信息,如protein coding genes, ncRNA, repeat features等,还包括mRNA的各种可变剪接,因此下载之后要根据项目需求过滤出自己需要的特征。一个物种在Ensembl ftp上有多个注释文件,以gtf为例:

  1. *.gtf结尾的文件,全部的注释结果,一般会使用这个文件。
  2. *.chr.gtf结尾的文件,包括了所有染色体序列上的注释结果,也包括线粒体染色体的注释信息,但不包括没有被组装成染色体的序列上的注释信息。每条染色体也有单独的注释文件。
  3. *.abinitio.gtf结尾的文件,为用Genescan和abinitio基因预测工具生成的注释信息,一般是denovo注释的结果。

人类和小鼠基因组的GTF文件与GENCODE计划发布的gene set文件相同。
The GENCODE project 的目标为对人类和小鼠基因组提供高质量的注释信息和实验确证。
The GENCODE gene sets被其他项目作为参考而广泛使用(如 1000 Genomes).
详细内容:https://www.gencodegenes.org/about.html

参考:

  1. x2yline在生信进化树上的评论,http://www.biotrainee.com/thread-626-1-1.html

转载于:https://www.cnblogs.com/RyannBio/p/9561216.html

Ensembl数据库简介相关推荐

  1. Ensembl数据库下载参考基因组(植物拟南芥)

    Ensembl数据库下载参考基因组 下面以植物拟南芥为例: 1.进入网站:http://plants.ensembl.org/index.html 一些常用的物种列在首页 拟南芥,水稻,玉米等 如果想 ...

  2. NCBI中SRA数据库简介

    NCBI中SRA数据库简介 SRA数据库简介 SRA 数据库, 为Sequence Read Archive 的缩写.主要存储高通量测序的数据,来自四个测序平台,分别为: Roche_LS454,Il ...

  3. php mysql数据库简介,mysql数据库

    数据库简介 什么是数据库 保存和管理数据的仓库,数据库 什么是数据 文件,图片,视频,订单,用户名,密码等等.这些数据都需要有专门的地方来保存和管理 数据库的分类 关系型:mysql ... 非关系型 ...

  4. 【Redis6快速深入学习01】NoSQL数据库简介

    文章目录 1 NoSQL数据库简介 1.1 技术发展 1.2 NoSQL数据库 1.3 行式存储数据库(大数据时代) 1.4 图关系型数据库 1 NoSQL数据库简介 1.1 技术发展 技术的分类 解 ...

  5. [Redis6]NoSQL数据库简介_特点

    NoSQL数据库简介 NoSQL(NoSQL = Not Only SQL ),意即"不仅仅是SQL",泛指非关系型的数据库. NoSQL 不依赖业务逻辑方式存储,而以简单的key ...

  6. 1、oracle数据库简介

    1.ORACLE数据库简介 数据库指的是存储和管理数据的仓库,是一种文件集合(包括数据文件.临时文件.日志文件和控制文件),我们一般所说的数据库指的是数据库管理系统,一种用于操作数据库的软件,简称DB ...

  7. mysql数据库基础简介_MySql数据库基础之数据库简介及安装

    MySql数据库简介: 众所周知,MySql数据库是一款开源的关系型数据库,在Web应用方面,MySql是最好的.最流行的RDBMS(Relational Database Management Sy ...

  8. 人群频率 | gnomAD数据库简介 (一)

    人群变异频率的重要性 从孟德尔的豌豆到人类的遗传病中提到的,在遗传病患者中,根据人群频率(Frequency in unselected individuals)筛选候选变异是发现致病变异(Causa ...

  9. 《PHP和MySQL Web开发从新手到高手(第5版)》一2章 MySQL简介2.1 数据库简介

    本节书摘来自异步社区<PHP和MySQL Web开发从新手到高手(第5版)>一书中的第2章,第2.1节,作者[澳]Kevin Yank,更多章节内容可以访问云栖社区"异步社区&q ...

  10. 数据库简介(python 版)

    数据库简介 人类在进化的过程中,创造了数字.文字.符号等来进行数据的记录,但是承受着认知能力和创造能力的提升,数据量越来越大,对于数据的记录和准确查找,成为了一个重大难题 计算机诞生后,数据开始在计算 ...

最新文章

  1. linux下配置apache多站点访问-小案例
  2. linux 命令行编辑常用快捷键
  3. 写jQuery插件该注意的
  4. 网络编程-之粘包现象
  5. 2020年第十一届蓝桥杯 - 省赛 - CC++大学A组 - B.既约分数
  6. Oracle数据表中输入引号等特殊字符
  7. Angular5 JWT身份验证(Spring Boot安全性)
  8. Spring的PropertyPlaceholderConfigurer应用
  9. python打包成exe_Python打包成exe时,再犯这几个错误就说不过去了
  10. ConcurrentHashMap面试灵魂拷问,你能扛多久
  11. C#扩展方法的理解 (转)
  12. Dennis Ritchie, father of Unix and C, dies
  13. 如何监测系统用户是否登录_网站建设教程:PageAdmin Cms如何获取用户登录状态...
  14. CF528D. Fuzzy Search [FFT]
  15. 软件的高可用性、可扩展性和高性能
  16. 使用AppleScript批量删除Mac中的信息
  17. 【Excel】根据空格拆分单元格
  18. java象棋代码注释_中国象棋程序的设计与实现(十一)--棋盘绘制算法(尽管注释非常详细,完全理解仍有难度)...
  19. 物联网概念火热,靠技术如何落地?
  20. Unity3D-计算帧率FPS

热门文章

  1. c++实现 龙格库塔经典4阶算法
  2. uniapp-UI设计
  3. [VS]网页连接数据库
  4. Minimax算法与Alpha-Beta算法
  5. apache Ignite 安装和helloworld
  6. 2.14 视图的分页预览以及分页符的使用 [原创Excel教程]
  7. shadow文件的MD5密码破解
  8. Android WebView下载apk
  9. SEO和SEM的区别
  10. jdbc——mysql学习