分类

基因组数据库：GDB、GenBank、Ensembl
核酸数据库：ENA（EMBL）、GenBank、DDBJ
蛋白质数据库：SWISS-PROF、PIR、PDB

一个数据库记录由两部分组成：原始序列数据和描述这些数据生物学信息的注释。

记录格式

FASTA

在生物信息学中，FASTA 格式是一种用于记录核酸序列或肽序列的文本格式，其中的核酸或氨基酸均以单个字母编码呈现。该格式同时还允许在序列之前定义名称和编写注释。这一格式最初由 FASTA 软件包定义，但现今已是生物信息学领域的一项标准。

FASTA 格式中的一条完整序列，包含开头的单行描述行和多行序列数据。描述行行首前置半角大于号（“>”）以和数据行区分。“>” 后紧接的内容为该序列的标识符，该行剩余部分则为序列的描述（标识符与描述均非必须）。“>” 和标识符之间不应有空格，且建议将单行内容限制在 80 字符以内。序列的结束以下一条序列的 “>” 出现为标识。如下为 FASTA 格式一条序列的示例：
<gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE
上例中，“gi|31563518|ref|NP_852610.1|” 是序列的名称。

核酸编码

氨基酸编码

FASTQ

该格式最初由维尔康姆基金会桑格研究所开发，旨在将 FASTA 格式序列及其质量数据集成在一起。而目前，FASTQ 格式已经成为了保存高通量测序结果的事实标准。
FASTQ 文件中，一个序列通常由四行组成：
第一行以 @开头，之后为序列的标识符以及描述信息（与 FASTA 格式的描述行类似）
第二行为序列信息
第三行以 + 开头，之后可以再次加上序列的标识及描述信息（可选）
第四行为质量得分信息，即测序的质量评价，与第二行的序列相对应，长度必须与第二行相同

@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中! 为最低质量、~ 则为最高质量。以下字符从左到右代表从低到高的质量得分的：

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_abcdefghijcdefghijklmnopqrstuvwxyz{|}~

最初桑格研究所的 FASTQ 格式允许序列与质量信息分成多行保存。但一般不推荐采用这种方式，因为第一、第三行开头的 @与 + 符号同样也可能出现在质量信息中，可能会造成信息提取的困难。

关于测序质量和错误率的进一步解释见下，可以看出，错误率越低，测序的质量值越高。

GFF（ general feature format）

用于对 DNA、RNA 以及蛋白质序列的特征进行描述。

更多细节见下

GBFF

GeneBank file format 为 GenBank 数据库使用的记录格式，GBFF 格式整体分为三个部分，分别为描述符部分、注释部分和序列部分。

数据库的冗余（redundancy）

DNA 和蛋白质数据库中的许多记录是属于同一基因和蛋白质家族，或在不同生物体上发现的同源基因。而且不同的研究机构可能向数据库提交了相同的序列数据。

统计学上的危害

统计分析偏向重复出现的族。
抽样时是有偏的。
预测发生偏离。

核苷酸及其相应数据库

DNA/RNA 序列数据库

构成一级数据库的主要部分。

英国的欧洲核苷酸数据库：European Nucleotide Archive (ENA)
美国的基因银行：GneBank
日本 DNA 数据库：The DNA Data Bank of Japan (DDBJ)

三个数据中心分别负责收集来自三大洲的数据，然后汇总和共享并对世界开放，理论上来讲，三个数据库的内容完全一致。
数据库数据分别以物种和数据类别进行分类。

图源：《生物信息学》

基因组数据库

主要来源于基因组测序计划

生物分类	网址
动物	https://en.wikipedia.org/wiki/List_of_sequenced_animal_genomes
植物	https://en.wikipedia.org/wiki/List_of_sequenced_plant_genomes
细菌	https://en.wikipedia.org/wiki/List_of_sequenced_bacterial_genomes
真菌	https://en.wikipedia.org/wiki/List_of_sequenced_fungi_genomes
原生生物	https://en.wikipedia.org/wiki/List_of_sequenced_protist_genomes
古生生物	https://en.wikipedia.org/wiki/List_of_sequenced_archaeal_genomes

不同基因组数据库的网址：

Ensembl：人类鼠、脊椎动物和真核生物基因组自动注释数据库
Ensembl Genomes：细菌、原生生物、真菌植物以及无脊椎动物等基因组数据库
NCBI genome：NCBI 整合基因组各类信息包括序列、图谱、染色体、拼装、注释等信息
UCSC Genome Browser：脊椎动物模式生物拼装注释以及基因组可视化分析数据库
CAMERA：微生物基因组和宏基因组资源
The 1000 Genomes Project：来自不同族群的超过 1000 个匿名参与者基因组数据库
Personal Genome Projeet：人类个体基因组分享数据库
GDB：人类基因组原始数据库
RCD: 鼠表型及基因组数据库
EcoCyc: 大肠杆菌基因组及转录调控数据库
Flybase: 果蝇基因及基因组数据库
ZFIN: 斑马鱼信息网络数据库
TAIR: 拟南芥信息资源数据库
maizegdb: 玉米基因组数据库
BRAD: 芸纂属基因组数据库
plantCDB: 植物基因组数据库

非编码 RNA 数据库

非编码 RNA（Non-coding RNA）是指不编码蛋白质的 RNA。其中包括 rRNA，tRNA，snRNA，snoRNA 和 microRNA 等多种已知功能的 RNA，还包括未知功能的 RNA。这些 RNA 的共同特点是都能从基因组上转录而来，但是不翻译成蛋白，在 RNA 水平上就能行使各自的生物学功能了。非编码 RNA 从长度上来划分可以分为 3 类：小于 50 nt，包括 microRNA，siRNA，piRNA；50 nt 到 500 nt，包括 rRNA，tRNA，snRNA，snoRNA，SLRNA，SRPRNA 等等；大于 500 nt，包括长的 mRNA-like 的非编码 RNA，长的不带 polyA 尾巴的非编码 RNA 等等

非编码小 RNA 数据库：

miRBase 【收录已发表 microRNA 序列及相关注释的数据库】
piRNAbank 【收录人、老鼠和果蝇的 piRNA 簇】
GtRNAdb 【收录转运 RNA】
SILVA 【收录核糖体 RNA】

长非编码 RNA 数据库：

LncRNAdb 【收录真核生物已注释功能的长非编码 RNA】
LncRNAWiki 【收录人长非编码 RNA】

生信自学笔记（三）分子数据库相关推荐

生信自学笔记（十二）：基因组序列与基因预测
基因组在生物学中,一个生物体的基因组是指包含在该生物的DNA(部分病毒是RNA)中的全部遗传信息,或者说是一套染色体中完整的DNA序列. 对于单倍体细胞,基因组是指编码序列和非编码序列在内的全部DN ...
生信自学笔记（二）生物信息
基本类型 1. 核苷酸序列数据 DNA 或 RNA 当中四种碱基的排列顺序. DNA : A T C G RNA : A G C U 2. 蛋白质序列和结构数据蛋白质序列是指 20 种氨基酸的排列顺 ...
生信自学笔记（五）计分矩阵的实例
氨基酸替换矩阵 PAM 替换矩阵 PAM(Point Accepted Multation) 是基于进化的点突变模型产生的,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高. ...
生信自学笔记（九）智慧的长者与多序列联配之clustal全局联配算法
要不,还是先讲个黑暗的小故事吧. 国王愈来愈烦躁了,他觉得这个国家满哪儿都是人,大街上走着人,池塘里泡着人,屋顶上晾着人,自己去四下巡游,什么风景都看不着. "这可不行,这么多人,东西哪够分 ...
计算机通路的基本概念,【生信学习笔记】KEGG分子通路数据库
原标题:[生信学习笔记]KEGG分子通路数据库首先什么是一个通路? 通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行 ...
生信分析学习笔记：（2）GO KEGG分析
生信分析学习笔记:(2)GO KEGG分析介绍教程 1.富集分析 (Over-Representation Analysis ) 2.GSEA(Gene Set Enrichment Analys ...
**生信自学记录1——获取Fastq格式的反向互补序列**
` 生信自学记录1--获取Fastq格式的反向互补序列总共分为三步 1.读取基因序列的str格式,返回反向互补序列str 2.打开fastq格式的文本提取基因序列,返回互补序列list 3.读取互补 ...
生信基础（三）——统计分析工具R语言
原创: hxj7 关键词:R; 统计; 美图作为一个生信er,光会处理文本数据是不够的,还要能进行统计分析.作为一个开源软件,R在统计社区"大行其道",在生信分析人员中更是&qu ...
nios自学笔记三：nios常用外设C函数整理
该文章为Nios II学习中的外设C函数收集整理笔记,长期更新. 提示:以下是本篇文章正文内容,下面案例可供参考一.PIO读写 1.1 对PIO进行写操作 (1)利用给定的宏定义函数,函数原型如下: ...
生信学习笔记：fastp质控处理生成的report结果解读
文章目录前言 raw data 和 fastq文件 reads Q20和Q30 N值 Adapters Duplication Insert fastp report summary Adapter ...

生信自学笔记（三）分子数据库

分类