生信自学笔记(三)分子数据库
分类
基因组数据库:GDB、GenBank、Ensembl
核酸数据库:ENA(EMBL)、GenBank、DDBJ
蛋白质数据库:SWISS-PROF、PIR、PDB
一个数据库记录由两部分组成:原始序列数据和描述这些数据生物学信息的注释。
记录格式
- FASTA
在生物信息学中,FASTA 格式是一种用于记录核酸序列或肽序列的文本格式,其中的核酸或氨基酸均以单个字母编码呈现。该格式同时还允许在序列之前定义名称和编写注释。这一格式最初由 FASTA 软件包定义,但现今已是生物信息学领域的一项标准。
FASTA 格式中的一条完整序列,包含开头的单行描述行和多行序列数据。描述行行首前置半角大于号(“>”)以和数据行区分。“>” 后紧接的内容为该序列的标识符,该行剩余部分则为序列的描述(标识符与描述均非必须)。“>” 和标识符之间不应有空格,且建议将单行内容限制在 80 字符以内。序列的结束以下一条序列的 “>” 出现为标识。如下为 FASTA 格式一条序列的示例:
<gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE
上例中,“gi|31563518|ref|NP_852610.1|” 是序列的名称。
核酸编码
氨基酸编码
- FASTQ
该格式最初由维尔康姆基金会桑格研究所开发,旨在将 FASTA 格式序列及其质量数据集成在一起。而目前,FASTQ 格式已经成为了保存高通量测序结果的事实标准。
FASTQ 文件中,一个序列通常由四行组成:
第一行以 @开头,之后为序列的标识符以及描述信息(与 FASTA 格式的描述行类似)
第二行为序列信息
第三行以 + 开头,之后可以再次加上序列的标识及描述信息(可选)
第四行为质量得分信息,即测序的质量评价,与第二行的序列相对应,长度必须与第二行相同
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
其中! 为最低质量、~ 则为最高质量。以下字符从左到右代表从低到高的质量得分的:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_abcdefghijcdefghijklmnopqrstuvwxyz{|}~
最初桑格研究所的 FASTQ 格式允许序列与质量信息分成多行保存。但一般不推荐采用这种方式,因为第一、第三行开头的 @与 + 符号同样也可能出现在质量信息中,可能会造成信息提取的困难。
关于测序质量和错误率的进一步解释见下,可以看出,错误率越低,测序的质量值越高。
- GFF( general feature format)
用于对 DNA、RNA 以及蛋白质序列的特征进行描述。
更多细节见下
- GBFF
GeneBank file format 为 GenBank 数据库使用的记录格式,GBFF 格式整体分为三个部分,分别为描述符部分、注释部分和序列部分。
数据库的冗余(redundancy)
DNA 和蛋白质数据库中的许多记录是属于同一基因和蛋白质家族,或在不同生物体上发现的同源基因。而且不同的研究机构可能向数据库提交了相同的序列数据。
统计学上的危害
统计分析偏向重复出现的族。
抽样时是有偏的。
预测发生偏离。
核苷酸及其相应数据库
DNA/RNA 序列数据库
构成一级数据库的主要部分。
英国的欧洲核苷酸数据库:European Nucleotide Archive (ENA)
美国的基因银行:GneBank
日本 DNA 数据库:The DNA Data Bank of Japan (DDBJ)
三个数据中心分别负责收集来自三大洲的数据,然后汇总和共享并对世界开放,理论上来讲,三个数据库的内容完全一致。
数据库数据分别以物种和数据类别进行分类。
图源:《生物信息学》
基因组数据库
主要来源于基因组测序计划
生物分类 | 网址 |
---|---|
动物 | https://en.wikipedia.org/wiki/List_of_sequenced_animal_genomes |
植物 | https://en.wikipedia.org/wiki/List_of_sequenced_plant_genomes |
细菌 | https://en.wikipedia.org/wiki/List_of_sequenced_bacterial_genomes |
真菌 | https://en.wikipedia.org/wiki/List_of_sequenced_fungi_genomes |
原生生物 | https://en.wikipedia.org/wiki/List_of_sequenced_protist_genomes |
古生生物 | https://en.wikipedia.org/wiki/List_of_sequenced_archaeal_genomes |
不同基因组数据库的网址:
Ensembl:人类鼠、脊椎动物和真核生物基因组自动注释数据库
Ensembl Genomes:细菌、原生生物、真菌植物以及无脊椎动物等基因组数据库
NCBI genome:NCBI 整合基因组各类信息包括序列、图谱、染色体、拼装、注释等信息
UCSC Genome Browser:脊椎动物模式生物拼装注释以及基因组可视化分析数据库
CAMERA:微生物基因组和宏基因组资源
The 1000 Genomes Project:来自不同族群的超过 1000 个匿名参与者基因组数据库
Personal Genome Projeet:人类个体基因组分享数据库
GDB:人类基因组原始数据库
RCD: 鼠表型及基因组数据库
EcoCyc: 大肠杆菌基因组及转录调控数据库
Flybase: 果蝇基因及基因组数据库
ZFIN: 斑马鱼信息网络数据库
TAIR: 拟南芥信息资源数据库
maizegdb: 玉米基因组数据库
BRAD: 芸纂属基因组数据库
plantCDB: 植物基因组数据库
非编码 RNA 数据库
非编码 RNA(Non-coding RNA)是指不编码蛋白质的 RNA。其中包括 rRNA,tRNA,snRNA,snoRNA 和 microRNA 等多种已知功能的 RNA,还包括未知功能的 RNA。这些 RNA 的共同特点是都能从基因组上转录而来,但是不翻译成蛋白,在 RNA 水平上就能行使各自的生物学功能了。非编码 RNA 从长度上来划分可以分为 3 类:小于 50 nt,包括 microRNA,siRNA,piRNA;50 nt 到 500 nt,包括 rRNA,tRNA,snRNA,snoRNA,SLRNA,SRPRNA 等等;大于 500 nt,包括长的 mRNA-like 的非编码 RNA,长的不带 polyA 尾巴的非编码 RNA 等等
非编码小 RNA 数据库:
miRBase 【收录已发表 microRNA 序列及相关注释的数据库】
piRNAbank 【收录人、老鼠和果蝇的 piRNA 簇】
GtRNAdb 【收录转运 RNA】
SILVA 【收录核糖体 RNA】
长非编码 RNA 数据库:
LncRNAdb 【收录真核生物已注释功能的长非编码 RNA】
LncRNAWiki 【收录人长非编码 RNA】
生信自学笔记(三)分子数据库相关推荐
- 生信自学笔记(十二):基因组序列与基因预测
基因组 在生物学中,一个生物体的基因组是指包含在该生物的DNA(部分病毒是RNA)中的全部遗传信息,或者说是一套染色体中完整的DNA序列. 对于单倍体细胞,基因组是指编码序列和非编码序列在内的全部DN ...
- 生信自学笔记(二)生物信息
基本类型 1. 核苷酸序列数据 DNA 或 RNA 当中四种碱基的排列顺序. DNA : A T C G RNA : A G C U 2. 蛋白质序列和结构数据 蛋白质序列是指 20 种氨基酸的排列顺 ...
- 生信自学笔记(五)计分矩阵的实例
氨基酸替换矩阵 PAM 替换矩阵 PAM(Point Accepted Multation) 是基于进化的点突变模型产生的,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高. ...
- 生信自学笔记(九)智慧的长者与多序列联配之clustal全局联配算法
要不,还是先讲个黑暗的小故事吧. 国王愈来愈烦躁了,他觉得这个国家满哪儿都是人,大街上走着人,池塘里泡着人,屋顶上晾着人,自己去四下巡游,什么风景都看不着. "这可不行,这么多人,东西哪够分 ...
- 计算机通路的基本概念,【生信学习笔记】KEGG分子通路数据库
原标题:[生信学习笔记]KEGG分子通路数据库 首先什么是一个通路? 通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行 ...
- 生信分析学习笔记:(2)GO KEGG分析
生信分析学习笔记:(2)GO KEGG分析 介绍 教程 1.富集分析 (Over-Representation Analysis ) 2.GSEA(Gene Set Enrichment Analys ...
- **生信自学记录1——获取Fastq格式的反向互补序列**
` 生信自学记录1--获取Fastq格式的反向互补序列 总共分为三步 1.读取基因序列的str格式,返回反向互补序列str 2.打开fastq格式的文本提取基因序列,返回互补序列list 3.读取互补 ...
- 生信基础(三)——统计分析工具R语言
原创: hxj7 关键词:R; 统计; 美图 作为一个生信er,光会处理文本数据是不够的,还要能进行统计分析.作为一个开源软件,R在统计社区"大行其道",在生信分析人员中更是&qu ...
- nios自学笔记三:nios常用外设C函数整理
该文章为Nios II学习中的外设C函数收集整理笔记,长期更新. 提示:以下是本篇文章正文内容,下面案例可供参考 一.PIO读写 1.1 对PIO进行写操作 (1)利用给定的宏定义函数,函数原型如下: ...
- 生信学习笔记:fastp质控处理生成的report结果解读
文章目录 前言 raw data 和 fastq文件 reads Q20和Q30 N值 Adapters Duplication Insert fastp report summary Adapter ...
最新文章
- java基础小总结(2)
- PHP date()函数警告: It is not safe to rely on the system解决方法
- u盘安装ubuntu_简单实用的ubuntu18.04安装
- 每天一道LeetCode-----将数字用字母表示(本质是26进制转换)
- python 字符串报错 but no encoding declared
- 云计算学习资料分享:type查看命令
- VLAN的Hybrid和Trunk端口有何区别
- 将json 填入表格_如何将Google表格用作JSON端点
- [RN] React Native 自定义导航栏随滚动渐变
- java 中 transient关键字
- Java 并发(JUC 包-01)
- php打印订单,WooCommerce: 打印订单
- cnpm 没反应_世界上“最蠢”的鱼, 被吃了一半还没反应, 但永远不会灭绝
- SD/TF卡驱动(一)--------SD卡相关简介
- iPadPro看电影之MKV转MP4视频格式教程
- 危化品企业双重预防机制数字化系统怎样建?
- 修复损坏文件,给电脑保驾续航
- Vue实现待办事件列表
- 2021林伟华中学高考成绩查询,2021年汕尾高考状元名单公布,汕尾高考状元学校资料及最高分...
- 电容放电特性分析τ=RC的推导