一、为什么需要生物数据库

构建?No!使用?Yes!

HIV病毒基因组:9752bp,编码9个基因;然而,人基因组:3,000,000,000bp……

生物数据库:被组织起来的大量生物数据,这些数据通过计算机可以被方便的访问、管理、更新

天文数字单位

中文名称 英文名称 10的几次方 常用
yotta 24
zetta 21
exa 18
peta 15
tetra 12
giga 9
mega 6
kilo 3
hecto 2
deca 1
mono 0

二、生物数据库的分类

生物数据库有多少?目前2000+!

著名期刊 Nucleic Acids Research(NAR)有生物数据库专刊

(内含 GenBank 和 PDB(Protein Data Bank)的最新版本数据库)

三、文献数据库—PubMed

链接:https://pubmed.ncbi.nlm.nih.gov

PubMed拥有超过240w的生物医学文献,来源于MEDLINE(生物医学文献数据库)、生命科学领域学术杂志以及在线的专业书籍,文献部分提供大全文链接。

高级搜索1—利用索引

格式:搜索词+空格+[缩写1+缩写2+……]+空格+搜索词+空格+[缩写1+缩写2+……]+……

缩写 全称
PMID Pubmed ID
DP Publication Date
TI Title
PG Page
AB Abstracts
AD Laboratory Address
AU Authors

高级搜索2—利用Advanced

无限添加条件

Tips

1.使用引号,词语合并搜索(如:“down syndrome”)
2.使用逻辑词 AND,OR,NOT(如:dUTPase [TI] AND bacteria [TI] NOT Smith [AU])
3.使用正确的名i缩写 (如:“Abergel C”)
4.使用每一篇文章唯一的PubMed ID(如:PMID:12345678)

四、一级核酸数据库—GenBank

链接:https://www.ncbi.nlm.nih.gov


注释

词条 记录的内容
LOCUS 基因座的名字、核酸序列长度、分子的类别、拓扑类型、更新日期
DEFINITION 序列的简短定义,即标题
ACCESSION 检索号(在数据库中是唯一且不变的,即使数据提交者改变数据内容)
VERSION 版本号(格式是“检索号.版本编号”)
GI(GenInfo Identifier) GI号(与版本号系统平行运行,一条序列改变后,将有新的GI号且版本号增加)
KEYWORDS 几个关键词描述该条目(可用于数据库搜索)
SOURCE 基因序列所属物种的俗名
ORGANISM 对所属物种更详细的定义,包含科学分类
REFERENCE 基因序列来源的文献(一条基因序列的不同片段可能来源于不同文献)
COMMENT 自由撰写内容(如:致谢、无法归入前面的内容)
FEATURES 核酸序列中各个已确定的片段区域(如:source,promotor)
source 核酸序列的来源
gene 拼出完整基因所需片段的检索号以及具体位置、基因名字
mRNA 所有外显子在片段中的具体位置
promoter 启动子的位置
misc_feature 杂项
RBS(Ribosome Binding Site) 核糖体的结合位点
CDS(Coding Segment) 编码区
sig_peptide 编码用于亚细胞定位的信号肽的碱基位置
mat_peptide 编码成熟的蛋白的碱基位置
exon 当前序列所包含的外显子的位置及编号
ORIGIN 核酸序列(以“//”作为整条记录的结束符)

关于LOCUS和ACCESSION

LOCUS相当于姓名,ACCESSION相当于学号,ACCESSION和LOCUS不一定相同
同一个人(LOCUS)在不同的学校(数据库)里可能有不同的学号(ACCESSION)

关于链接

1.FASTA:FASTA格式的核酸序列
2.Graphics:序列的图形概览
3.Send+Creat File:像PubMed文献列表一样纯文本保存整条记录

五、一级核酸数据库—Ensembl、JCVI

Ensembl—基因组数据库

http://www.ensembl.org

JCVI—微生物宏基因组数据库

http://www.jcvi.org

六、二级核酸数据库

RefSeq—参考序列数据库

https://www.ncbi.nlm.nih.gov/refseq

dbEST—表达序列标签数据库

https://www.ncbi.nlm.nih.gov/dbEST

Gene—提供基因序列注释和检索服务的数据库

https://www.ncbi.nlm.nih.gov/gene

ncRNA—非编码RNA数据库

http://biobases.ibch.poznan.pl/ncRNA

microRNA—已发表的microRNA序列和注释的数据库

http://www.mirbase.org

七、一级蛋白质序列数据库—UniProtKB

链接:https://www.uniprot.org


注释

词条 记录的内容
Entry 检索号
Entry_Name 检索名
Function 蛋白质功能
Names & Taxonomy 蛋白质的各种名称、所属物种及其分类学系谱
Subcellular location 蛋白质亚细胞的定位
Pathology & Biotech 蛋白质突变或缺失导致的疾病及表型
PTM() / Processing 蛋白质翻译后修饰或加工的信息
Expression 基因在mRNA/细胞中蛋白质水平上的表达或在不同器官组织中的表达
Interaction 蛋白质之间的相互作用
Structure 蛋白质二/三级结构
Family & Domains 蛋白质家族及结构域
Sequences 蛋白质的氨基酸序列
Cross-references 其他含有该蛋白质信息的数据库链接
Publications 有关这个蛋白质已发表的文献信息
Entry information 有关这条数据库记录的录入信息、免责声明
Miscellaneous 杂项
Similar proteins 在UniRef数据库里找到与该蛋白质在序列水平上相似的其它蛋白质(相似度从高到低)

索引

八、一级蛋白质结构数据库—PDB

链接:http://www.rcsb.org

索引


九、二级蛋白质数据库—Pfam、CATH、SCOP2

Pfam—结构域家族数据库

http://pfam.xfam.org

CATH—结构分类数据库

http://www.cathdb.info

SCOP2—结构分类数据库

http://scop2.mrc-lmb.cam.ac.uk/

十、 专用数据库—KEGG、OMIM

KEGG—京都基因与基因组百科全书

https://www.genome.jp/kegg

OMIM—人类孟德尔遗传在线

https://www.omim.org

【MOOC-生物信息学-生物数据库】相关推荐

  1. 【学习笔记】山东大学生物信息学-01 生物数据库

    课程地址:山东大学生物信息学 文章目录 一.生物数据库 1.1 PubMed 文献数据库 1.2 一级核酸数据库 1.2.1 INSDC = Genbank + ENA + DDBJ 1.2.2 基因 ...

  2. 【生信MOOC】生物序列比对工具——多序列比对

    [生信MOOC]生物序列比对工具2--多序列比对 文章的文字/图片/代码部分/全部来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用. 目录 [生信MOOC]生物序列比对工具2--多序列比对 1 ...

  3. 生物信息学生物影像_大规模生物学的五点原因

    生物信息学生物影像 Technology and Scale's love affair is well-known, but their adoption of Biology has had it ...

  4. 生物信息学 生物科学、农学、林学、医学

    生物信息学应用领域非常广泛,从学科划分来说,生物科学.农学.林学.医学等所有涉及生命的领域,都有生物信息学的身影.我们可以从三个视角来总结生物信息学的应用领域. 细胞 生物体 生命之树 一.从细胞角度 ...

  5. 生信学习--生物数据库大全

    本文转自https://blog.csdn.net/g863402758/article/details/52957299 综合数据库 ★ INSD,国际核酸序列数据库(International N ...

  6. 生物数据库介绍——NCBI

    NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心)除了维护GenBank核酸序列数据库外,还提供数据分析和检索资源.NCB ...

  7. 给你的数据一个家,一个有DOI的地方 | 生物数据库承建

    高通量测序技术的发展使得数据的获取越来越容易: 生物信息的发展为解析数据提出假说提供了很好的技术手段: 易生信培训搭建了很好的桥梁: 数据有了,分析结果有了,文章发表了,皆大欢喜! 来生信宝典和宏基因 ...

  8. 生物数据库建设,等你来~

    高通量测序技术的发展使得数据的获取越来越容易,数据也累计越来越多: 生物信息的发展为解析数据提出假说提供了很好的技术手段: 数据有了,分析结果有了,文章发表了,皆大欢喜. 然后呢?为我们出力的数据怎么 ...

  9. 0055-【生物数据库】-如何进行RNA差异基因KEGG注释分析-kobas在线分析

    1. 有参物种使用gene ID的方法 1. 差异基因文件准备 只需要用到两列 ENTREZ_GENE_ID logFC geneNames ENTREZ_GENE_ID normalAve tumo ...

最新文章

  1. 计算机软件基础-(软件开发过程管理)
  2. tomcat的安装和部署项目
  3. [Leetcode][JAVA] Reorder List
  4. 没学c语言可以学python_学了Python,但是没有学c,直接去学c++是可行的吗?
  5. 那个成人总会遇到的小问题……
  6. c语言线程不安全错误定位,C语言中的线程安全可破坏事件触发类#
  7. 学php还是golang,学swoole还是golang
  8. Pandas数据类型及操作
  9. JavaScript基本类型和引用类型
  10. JS倒计时:从某个固定时间开始倒记
  11. [Python] L1-034. 点赞 团体程序设计天梯赛GPLT
  12. Confluence 6 安全相关问题提交链接
  13. Android Studio的Project有某个项目,Build Variants却没有,如何添加物已有项目?
  14. 选择排序——Java排序算法
  15. 七个国外免费杀毒软件
  16. 世界尽头与冷酷仙境(村上春树)-摘录
  17. dalao自动报表邮件2.0
  18. python计算等差数列_python 等差数列末项计算方式
  19. iClap:产品经理再忙也要看《琅琊榜》
  20. oracle maxidletime,ORA-02396:超过最大空闲时间,请再次连接

热门文章

  1. Vant上传多个图片或视频,更改视频预览图
  2. iPhoneX 适配笔记
  3. 小试牛刀:使用EasyPaintToolSAI来制作动漫图片
  4. 国风就是帅,会三板吗,看看新天吧
  5. Access安全吗?Access安全性之QA详解
  6. dell加装固态硬盘_[图解]戴尔灵越15R 5537怎么更换加装固态硬盘?
  7. 电子设计之国赛准备-----(前言)
  8. 东方幻想乡/BadApple!!
  9. 七牛非Cocoapods 手动集成霹雳直播SDK(通用版)
  10. php 2个数组并集,php中数组的并集、交集和差集函数介绍_PHP教程