一、为什么需要生物数据库

上期在介绍GenBank格式时举了新冠病毒基因组的例子,仅一个S基因就长达3822
nt(nucleotide,这里指核苷酸数),基因组全长接近3万个碱基。

LOCUS       NC_045512              29903 bp ss-RNA     linear   VRL 18-JUL-2020
...gene            21563..25384/gene="S"/locus_tag="GU280_gp02"/gene_synonym="spike glycoprotein"/db_xref="GeneID:43740568"

一页A4纸大概能记录1.5万个碱基

北京大学图书馆以800万册的藏书量坐拥国内高校Top1 按照一本书500页A4纸计算,一个人的基因组约等于200本书,北京大学图书馆纸质书的数量近乎于4万人的基因组。

这还仅仅是一个物种的一小部分,成千上万的物种都有基因组数据,有的基因组甚至是人类基因组的数十倍,如重楼百合有150 Gb大小的基因组(表1), 人均每分钟英文字符的阅读量不足1千个[1] 。

如此算来,即便你昼夜不停地读,也要超过285年才能读完一个重楼百合的基因组序列。此外还有大量的注释信息,需要借助大型计算机才能存储下这些庞大的数据资源。

基于计算机资源构建的生物信息数据库可以更好地管理、更新和读取分析基因组数据

表1. 代表性物种的基因组大小
二、数据库的分类

根据存储数据的类型,可划分为核酸数据库、蛋白质数据库和专用数据库

表2. 常用的生物数据库

表3. 常用生物数据库ID

很多编号看起来挺复杂,还不赶紧收藏一下本帖以备不时之需~

三、数据库的使用

下面简单介绍一下NCBI数据库的使用

Web blast

Nucleotide BLAST
核酸序列比对,query sequence为核酸序列,目标database为核酸数据库(NT)
blastx
核酸序列比对蛋白序列,query sequence为核酸序列,目标database为蛋白序列数据库(NR)
tblastn
蛋白序列比对核酸序列,query sequence为蛋白质序列,目标database为核酸数据库
Protein BLAST
蛋白序列比对,query sequence为蛋白序列,目标database为蛋白序列数据库

举个例子

当你做PCR成功扩增出目的片段时,为了验证产物,得到产物的序列信息后应该进行核酸序列比对(Nucleotide blast)以确认产物是正确的,而非污染造成的假阳性。
此外,如果所扩增的片段编码蛋白质,还可以进行核酸序列比对蛋白序列(blastx)来查看相应的蛋白功能信息。

寻找同源蛋白

我们知道蛋白质在生物体的生命活动中承担着丰富而复杂的功能,而结构相同或相似的蛋白质一般具有相同的功能,其中有一部分我们可以基于序列相似性来判定这些蛋白的同源性

既然可以用序列相似性来判定两个蛋白是否为同源蛋白,那判定的阈值是多少呢?

研究表明,两个序列相似性达到50%及以上的蛋白,在同源建模时结构相差大约在1埃(0.1 nm)
当相似性低于30%时,仅通过序列信息预测获得的蛋白结构,其准确性难以保证[1] 也就是说 30%
就是我们用序列相似性评判蛋白质是否同源的一个阈值

其它数据库——国家基因库CNGBdb

除了NCBI的数据库,你还可以在国家基因库平台使用千种植物基因组项目(The 1000 Plants Project)和万种鸟类基因组项目(The Bird 10000 Genomes Project)等项目的数据库

参考文献
[1] Chung SY, Subbiah S. A structural explanation for the twilight zone of protein sequence homology. Structure. 1996;4(10):1123-1127. doi:10.1016/s0969-2126(96)00119-0

BGI-College生信入门系列——3、数据库相关推荐

  1. BGI-College生信入门系列——2、什么是数据?

    从直觉上看,数据貌似很好理解,但真正要说清楚数据这个词却有点困难. 想一想,数据到底是什么呢? 数据的定义实际上包含两方面内容,即信息的符号和设计. 其中信息的设计,也就是数据的格式,决定了读者从中获 ...

  2. 学习生信的系列教程 | 留言您是如何学习生信的免费获取北大出版《Python数据分析》书籍...

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

  3. 生信入门:序列比对之blast在线和本地使用

    主要内容 1 背景 2 在线blast 3 本地blast 3.1 老版本blast 3.2 新版本blast 背景 序列比对(Sequence Alignment)的基本问题是比较两个或两个以上序列 ...

  4. 生信入门(二)——使用limma、Glimma和edgeR,RNA-seq数据分析

    生信入门(二)--使用limma.Glimma和edgeR,RNA-seq数据分析 文章目录 生信入门(二)--使用limma.Glimma和edgeR,RNA-seq数据分析 一.简介 二.数据背景 ...

  5. 生信入门(四)——使用DESeq2进行RNA-seq数据分析

    生信入门(四)--使用DESeq2进行RNA-seq数据分析 文章目录 生信入门(四)--使用DESeq2进行RNA-seq数据分析 一.学习目标 二.实验数据 1.数据来源 2.建模计数数据 3.转 ...

  6. 生信入门(五)——使用DESeq2进行RNA-seq数据分析

    生信入门(五)--使用DESeq2进行RNA-seq数据分析 文章目录 生信入门(五)--使用DESeq2进行RNA-seq数据分析 四.探索性数据分析 1.简单EDA 2.EDA 的数据转换 3.主 ...

  7. 1. oracle学习入门系列之一 数据库发展与历史

    oracle学习入门系列之一 数据库发展与历史 这个oracle学习入门系列是根据本人工作中的一些笔记.项目进行回忆.整理.一方面是自己知识积累,便于技能提升:另一方面是和小伙伴们共进退互通有无,做一 ...

  8. 生信入门(六)——单细胞分析(Seurat)

    生信入门(六)--单细胞分析(Seurat) 文章目录 生信入门(六)--单细胞分析(Seurat) 一.数据导入 1.数据来源 2.数据导入 二.标准预处理 1.QC和选择细胞进行进一步分析 2.规 ...

  9. 最后1天!生信入门转录组和可视化学习捷径

    转录组分析是目前应用最广的高通量测序分析技术之一.常见设计是不同样品之间比较,寻找差异基因.标志基因.协同变化基因.差异剪接和新转录本,并进行结果可视化.功能注释和网络分析等. 转录组的测序分析也相对 ...

  10. 最后3天!生信入门转录组和可视化学习捷径

    转录组分析是目前应用最广的高通量测序分析技术之一.常见设计是不同样品之间比较,寻找差异基因.标志基因.协同变化基因.差异剪接和新转录本,并进行结果可视化.功能注释和网络分析等. 转录组的测序分析也相对 ...

最新文章

  1. java 局部内部类的理解
  2. 福州java培训哪里好_南京Java培训哪家好?
  3. Python 零碎信息-基础 02
  4. Spring 定时任务的几种实现
  5. 现代软件工程 作业 结对编程 模板
  6. 蒙特卡罗模拟法 —— python
  7. 迭代子模式(Iterator)
  8. T-SQL MAX Functions
  9. phpserialize ,PHP 中变量序列化和反序列化在 Python 中的实现
  10. LED背光源优势的表现
  11. ES6——Promise笔记
  12. QQ邮箱今天大面积出现无法下载附件的问题
  13. 论文阅读:(NFM)Neural Factorization Machines for Sparse Predictive Analytics
  14. mysql-8.0.28-winx64的安装
  15. 【青春记忆】叹!雪……
  16. 玩转STM32F0 Value Line Discovery 之 时钟配置工具
  17. Hololens远程视频通话与AR标注
  18. android list 分组,安卓ExpandableListView实现多组列表,类似于QQ分组
  19. 人脸检测颜值软件_颜值检测软件下载-颜值检测免费版下载-ROM之家
  20. 专业的JS代码格式化工具

热门文章

  1. 微信html5怎么制作,图文揭秘微信h5怎么制作-朋友圈微信H5页面制作方法
  2. VOIP Codec 三剑客之 ISAC/ILBC -- ISAC (6) Spectrum Encode 模块
  3. 校园内网服务器维修视频,怎么搭建校园高清视频直播系统
  4. 腾讯云学生服务器+wordpress搭建个人网站
  5. 虚拟机安装win7时遇到的问题及解决方案
  6. 解决IE浏览器无法显示VUE项目的方法
  7. 硬件知识:固态硬盘和机械硬盘区别
  8. 农历日期用html怎么显示,怎么显示阴历(农历)日期的js代码?
  9. 戴尔服务器重装系统蓝屏重启,戴尔电脑装系统蓝屏如何解决?
  10. 单片机c语言中断程序实验报告,单片机实验之外部中断应用实验