分类

  • 基因组数据库:GDB、GenBank、Ensembl

  • 核酸数据库:ENA(EMBL)、GenBank、DDBJ

  • 蛋白质数据库:SWISS-PROF、PIR、PDB

一个数据库记录由两部分组成:原始序列数据和描述这些数据生物学信息的注释。

记录格式

  • FASTA

在生物信息学中,FASTA 格式是一种用于记录核酸序列或肽序列的文本格式,其中的核酸或氨基酸均以单个字母编码呈现。该格式同时还允许在序列之前定义名称和编写注释。这一格式最初由 FASTA 软件包定义,但现今已是生物信息学领域的一项标准。

FASTA 格式中的一条完整序列,包含开头的单行描述行和多行序列数据。描述行行首前置半角大于号(“>”)以和数据行区分。“>” 后紧接的内容为该序列的标识符,该行剩余部分则为序列的描述(标识符与描述均非必须)。“>” 和标识符之间不应有空格,且建议将单行内容限制在 80 字符以内。序列的结束以下一条序列的 “>” 出现为标识。如下为 FASTA 格式一条序列的示例:

<gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

上例中,“gi|31563518|ref|NP_852610.1|” 是序列的名称。

核酸编码

氨基酸编码

  • FASTQ

该格式最初由维尔康姆基金会桑格研究所开发,旨在将 FASTA 格式序列及其质量数据集成在一起。而目前,FASTQ 格式已经成为了保存高通量测序结果的事实标准。
FASTQ 文件中,一个序列通常由四行组成:
第一行以 @开头,之后为序列的标识符以及描述信息(与 FASTA 格式的描述行类似)
第二行为序列信息
第三行以 + 开头,之后可以再次加上序列的标识及描述信息(可选)
第四行为质量得分信息,即测序的质量评价,与第二行的序列相对应,长度必须与第二行相同

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中! 为最低质量、~ 则为最高质量。以下字符从左到右代表从低到高的质量得分的:

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_abcdefghijcdefghijklmnopqrstuvwxyz{|}~

最初桑格研究所的 FASTQ 格式允许序列与质量信息分成多行保存。但一般不推荐采用这种方式,因为第一、第三行开头的 @与 + 符号同样也可能出现在质量信息中,可能会造成信息提取的困难。

关于测序质量和错误率的进一步解释见下,可以看出,错误率越低,测序的质量值越高。

  • GFF( general feature format)

用于对 DNA、RNA 以及蛋白质序列的特征进行描述。

更多细节见下

  • GBFF

GeneBank file format 为 GenBank 数据库使用的记录格式,GBFF 格式整体分为三个部分,分别为描述符部分、注释部分和序列部分。

数据库的冗余(redundancy)

DNA 和蛋白质数据库中的许多记录是属于同一基因和蛋白质家族,或在不同生物体上发现的同源基因。而且不同的研究机构可能向数据库提交了相同的序列数据。

统计学上的危害

  • 统计分析偏向重复出现的族。

  • 抽样时是有偏的。

  • 预测发生偏离。

核苷酸及其相应数据库

DNA/RNA 序列数据库

构成一级数据库的主要部分。

  • 英国的欧洲核苷酸数据库:European Nucleotide Archive (ENA)

  • 美国的基因银行:GneBank

  • 日本 DNA 数据库:The DNA Data Bank of Japan (DDBJ)

三个数据中心分别负责收集来自三大洲的数据,然后汇总和共享并对世界开放,理论上来讲,三个数据库的内容完全一致。
数据库数据分别以物种和数据类别进行分类。

图源:《生物信息学》

基因组数据库

主要来源于基因组测序计划

生物分类 网址
动物 https://en.wikipedia.org/wiki/List_of_sequenced_animal_genomes
植物 https://en.wikipedia.org/wiki/List_of_sequenced_plant_genomes
细菌 https://en.wikipedia.org/wiki/List_of_sequenced_bacterial_genomes
真菌 https://en.wikipedia.org/wiki/List_of_sequenced_fungi_genomes
原生生物 https://en.wikipedia.org/wiki/List_of_sequenced_protist_genomes
古生生物 https://en.wikipedia.org/wiki/List_of_sequenced_archaeal_genomes

不同基因组数据库的网址:

  • Ensembl:人类鼠、脊椎动物和真核生物基因组自动注释数据库

  • Ensembl Genomes:细菌、原生生物、真菌植物以及无脊椎动物等基因组数据库

  • NCBI genome:NCBI 整合基因组各类信息包括序列、图谱、染色体、拼装、注释等信息

  • UCSC Genome Browser:脊椎动物模式生物拼装注释以及基因组可视化分析数据库

  • CAMERA:微生物基因组和宏基因组资源

  • The 1000 Genomes Project:来自不同族群的超过 1000 个匿名参与者基因组数据库

  • Personal Genome Projeet:人类个体基因组分享数据库

  • GDB:人类基因组原始数据库

  • RCD: 鼠表型及基因组数据库

  • EcoCyc: 大肠杆菌基因组及转录调控数据库

  • Flybase: 果蝇基因及基因组数据库

  • ZFIN: 斑马鱼信息网络数据库

  • TAIR: 拟南芥信息资源数据库

  • maizegdb: 玉米基因组数据库

  • BRAD: 芸纂属基因组数据库

  • plantCDB: 植物基因组数据库

非编码 RNA 数据库

非编码 RNA(Non-coding RNA)是指不编码蛋白质的 RNA。其中包括 rRNA,tRNA,snRNA,snoRNA 和 microRNA 等多种已知功能的 RNA,还包括未知功能的 RNA。这些 RNA 的共同特点是都能从基因组上转录而来,但是不翻译成蛋白,在 RNA 水平上就能行使各自的生物学功能了。非编码 RNA 从长度上来划分可以分为 3 类:小于 50 nt,包括 microRNA,siRNA,piRNA;50 nt 到 500 nt,包括 rRNA,tRNA,snRNA,snoRNA,SLRNA,SRPRNA 等等;大于 500 nt,包括长的 mRNA-like 的非编码 RNA,长的不带 polyA 尾巴的非编码 RNA 等等

非编码小 RNA 数据库:

  • miRBase 【收录已发表 microRNA 序列及相关注释的数据库】

  • piRNAbank 【收录人、老鼠和果蝇的 piRNA 簇】

  • GtRNAdb 【收录转运 RNA】

  • SILVA 【收录核糖体 RNA】

长非编码 RNA 数据库:

  • LncRNAdb 【收录真核生物已注释功能的长非编码 RNA】

  • LncRNAWiki 【收录人长非编码 RNA】

生信自学笔记(三)分子数据库相关推荐

  1. 生信自学笔记(十二):基因组序列与基因预测

    基因组 在生物学中,一个生物体的基因组是指包含在该生物的DNA(部分病毒是RNA)中的全部遗传信息,或者说是一套染色体中完整的DNA序列. 对于单倍体细胞,基因组是指编码序列和非编码序列在内的全部DN ...

  2. 生信自学笔记(二)生物信息

    基本类型 1. 核苷酸序列数据 DNA 或 RNA 当中四种碱基的排列顺序. DNA : A T C G RNA : A G C U 2. 蛋白质序列和结构数据 蛋白质序列是指 20 种氨基酸的排列顺 ...

  3. 生信自学笔记(五)计分矩阵的实例

    氨基酸替换矩阵 PAM 替换矩阵 PAM(Point Accepted Multation) 是基于进化的点突变模型产生的,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高. ...

  4. 生信自学笔记(九)智慧的长者与多序列联配之clustal全局联配算法

    要不,还是先讲个黑暗的小故事吧. 国王愈来愈烦躁了,他觉得这个国家满哪儿都是人,大街上走着人,池塘里泡着人,屋顶上晾着人,自己去四下巡游,什么风景都看不着. "这可不行,这么多人,东西哪够分 ...

  5. 计算机通路的基本概念,【生信学习笔记】KEGG分子通路数据库

    原标题:[生信学习笔记]KEGG分子通路数据库 首先什么是一个通路? 通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行 ...

  6. 生信分析学习笔记:(2)GO KEGG分析

    生信分析学习笔记:(2)GO KEGG分析 介绍 教程 1.富集分析 (Over-Representation Analysis ) 2.GSEA(Gene Set Enrichment Analys ...

  7. **生信自学记录1——获取Fastq格式的反向互补序列**

    ` 生信自学记录1--获取Fastq格式的反向互补序列 总共分为三步 1.读取基因序列的str格式,返回反向互补序列str 2.打开fastq格式的文本提取基因序列,返回互补序列list 3.读取互补 ...

  8. 生信基础(三)——统计分析工具R语言

    原创: hxj7 关键词:R; 统计; 美图 作为一个生信er,光会处理文本数据是不够的,还要能进行统计分析.作为一个开源软件,R在统计社区"大行其道",在生信分析人员中更是&qu ...

  9. nios自学笔记三:nios常用外设C函数整理

    该文章为Nios II学习中的外设C函数收集整理笔记,长期更新. 提示:以下是本篇文章正文内容,下面案例可供参考 一.PIO读写 1.1 对PIO进行写操作 (1)利用给定的宏定义函数,函数原型如下: ...

  10. 生信学习笔记:fastp质控处理生成的report结果解读

    文章目录 前言 raw data 和 fastq文件 reads Q20和Q30 N值 Adapters Duplication Insert fastp report summary Adapter ...

最新文章

  1. java基础小总结(2)
  2. PHP date()函数警告: It is not safe to rely on the system解决方法
  3. u盘安装ubuntu_简单实用的ubuntu18.04安装
  4. 每天一道LeetCode-----将数字用字母表示(本质是26进制转换)
  5. python 字符串报错 but no encoding declared
  6. 云计算学习资料分享:type查看命令
  7. VLAN的Hybrid和Trunk端口有何区别
  8. 将json 填入表格_如何将Google表格用作JSON端点
  9. [RN] React Native 自定义导航栏随滚动渐变
  10. java 中 transient关键字
  11. Java 并发(JUC 包-01)
  12. php打印订单,WooCommerce: 打印订单
  13. cnpm 没反应_世界上“最蠢”的鱼, 被吃了一半还没反应, 但永远不会灭绝
  14. SD/TF卡驱动(一)--------SD卡相关简介
  15. iPadPro看电影之MKV转MP4视频格式教程
  16. 危化品企业双重预防机制数字化系统怎样建?
  17. 修复损坏文件,给电脑保驾续航
  18. Vue实现待办事件列表
  19. 2021林伟华中学高考成绩查询,2021年汕尾高考状元名单公布,汕尾高考状元学校资料及最高分...
  20. 电容放电特性分析τ=RC的推导

热门文章

  1. PHP IE下载时提示”无法复制 无法读取源文件或磁盘”的解决办法
  2. win10pe命令打开计算机,Win10是怎么进入安全模式
  3. TinyPNG批量智能图片压缩器无限制版(支持Mac/Win)
  4. Macbook 终端命令使用sudo时改用指纹解锁
  5. 2021-2027全球与中国DJ设备市场现状及未来发展趋势
  6. JS导出excel 纯前端
  7. js 导出Excel
  8. Python打印五子棋棋盘
  9. Microsoft漏洞补丁包下载地址大全
  10. Mac配置Android SDK环境变量