【MOOC-生物信息学-生物数据库】
一、为什么需要生物数据库
构建?No!使用?Yes!
HIV病毒基因组:9752bp,编码9个基因;然而,人基因组:3,000,000,000bp……
生物数据库:被组织起来的大量生物数据,这些数据通过计算机可以被方便的访问、管理、更新
天文数字单位
中文名称 | 英文名称 | 10的几次方 | 常用 |
---|---|---|---|
尧 | yotta | 24 | |
泽 | zetta | 21 | |
艾 | exa | 18 | |
拍 | peta | 15 | |
太 | tetra | 12 | √ |
吉 | giga | 9 | √ |
兆 | mega | 6 | √ |
千 | kilo | 3 | √ |
百 | hecto | 2 | |
十 | deca | 1 | |
个 | mono | 0 |
二、生物数据库的分类
生物数据库有多少?目前2000+!
著名期刊 Nucleic Acids Research(NAR)有生物数据库专刊
(内含 GenBank 和 PDB(Protein Data Bank)的最新版本数据库)
三、文献数据库—PubMed
链接:https://pubmed.ncbi.nlm.nih.gov
PubMed拥有超过240w的生物医学文献,来源于MEDLINE(生物医学文献数据库)、生命科学领域学术杂志以及在线的专业书籍,文献部分提供大全文链接。
高级搜索1—利用索引
格式:搜索词+空格+[缩写1+缩写2+……]+空格+搜索词+空格+[缩写1+缩写2+……]+……
缩写 | 全称 |
---|---|
PMID | Pubmed ID |
DP | Publication Date |
TI | Title |
PG | Page |
AB | Abstracts |
AD | Laboratory Address |
AU | Authors |
高级搜索2—利用Advanced
无限添加条件
Tips
1.使用引号,词语合并搜索(如:“down syndrome”)
2.使用逻辑词 AND,OR,NOT(如:dUTPase [TI] AND bacteria [TI] NOT Smith [AU])
3.使用正确的名i缩写 (如:“Abergel C”)
4.使用每一篇文章唯一的PubMed ID(如:PMID:12345678)
四、一级核酸数据库—GenBank
链接:https://www.ncbi.nlm.nih.gov
注释
词条 | 记录的内容 |
---|---|
LOCUS | 基因座的名字、核酸序列长度、分子的类别、拓扑类型、更新日期 |
DEFINITION | 序列的简短定义,即标题 |
ACCESSION | 检索号(在数据库中是唯一且不变的,即使数据提交者改变数据内容) |
VERSION | 版本号(格式是“检索号.版本编号”) |
GI(GenInfo Identifier) | GI号(与版本号系统平行运行,一条序列改变后,将有新的GI号且版本号增加) |
KEYWORDS | 几个关键词描述该条目(可用于数据库搜索) |
SOURCE | 基因序列所属物种的俗名 |
ORGANISM | 对所属物种更详细的定义,包含科学分类 |
REFERENCE | 基因序列来源的文献(一条基因序列的不同片段可能来源于不同文献) |
COMMENT | 自由撰写内容(如:致谢、无法归入前面的内容) |
FEATURES | 核酸序列中各个已确定的片段区域(如:source,promotor) |
source | 核酸序列的来源 |
gene | 拼出完整基因所需片段的检索号以及具体位置、基因名字 |
mRNA | 所有外显子在片段中的具体位置 |
promoter | 启动子的位置 |
misc_feature | 杂项 |
RBS(Ribosome Binding Site) | 核糖体的结合位点 |
CDS(Coding Segment) | 编码区 |
sig_peptide | 编码用于亚细胞定位的信号肽的碱基位置 |
mat_peptide | 编码成熟的蛋白的碱基位置 |
exon | 当前序列所包含的外显子的位置及编号 |
ORIGIN | 核酸序列(以“//”作为整条记录的结束符) |
关于LOCUS和ACCESSION
LOCUS相当于姓名,ACCESSION相当于学号,ACCESSION和LOCUS不一定相同
同一个人(LOCUS)在不同的学校(数据库)里可能有不同的学号(ACCESSION)
关于链接
1.FASTA:FASTA格式的核酸序列
2.Graphics:序列的图形概览
3.Send+Creat File:像PubMed文献列表一样纯文本保存整条记录
五、一级核酸数据库—Ensembl、JCVI
Ensembl—基因组数据库
http://www.ensembl.org
JCVI—微生物宏基因组数据库
http://www.jcvi.org
六、二级核酸数据库
RefSeq—参考序列数据库
https://www.ncbi.nlm.nih.gov/refseq
dbEST—表达序列标签数据库
https://www.ncbi.nlm.nih.gov/dbEST
Gene—提供基因序列注释和检索服务的数据库
https://www.ncbi.nlm.nih.gov/gene
ncRNA—非编码RNA数据库
http://biobases.ibch.poznan.pl/ncRNA
microRNA—已发表的microRNA序列和注释的数据库
http://www.mirbase.org
七、一级蛋白质序列数据库—UniProtKB
链接:https://www.uniprot.org
注释
词条 | 记录的内容 |
---|---|
Entry | 检索号 |
Entry_Name | 检索名 |
Function | 蛋白质功能 |
Names & Taxonomy | 蛋白质的各种名称、所属物种及其分类学系谱 |
Subcellular location | 蛋白质亚细胞的定位 |
Pathology & Biotech | 蛋白质突变或缺失导致的疾病及表型 |
PTM() / Processing | 蛋白质翻译后修饰或加工的信息 |
Expression | 基因在mRNA/细胞中蛋白质水平上的表达或在不同器官组织中的表达 |
Interaction | 蛋白质之间的相互作用 |
Structure | 蛋白质二/三级结构 |
Family & Domains | 蛋白质家族及结构域 |
Sequences | 蛋白质的氨基酸序列 |
Cross-references | 其他含有该蛋白质信息的数据库链接 |
Publications | 有关这个蛋白质已发表的文献信息 |
Entry information | 有关这条数据库记录的录入信息、免责声明 |
Miscellaneous | 杂项 |
Similar proteins | 在UniRef数据库里找到与该蛋白质在序列水平上相似的其它蛋白质(相似度从高到低) |
索引
八、一级蛋白质结构数据库—PDB
链接:http://www.rcsb.org
索引
九、二级蛋白质数据库—Pfam、CATH、SCOP2
Pfam—结构域家族数据库
http://pfam.xfam.org
CATH—结构分类数据库
http://www.cathdb.info
SCOP2—结构分类数据库
http://scop2.mrc-lmb.cam.ac.uk/
十、 专用数据库—KEGG、OMIM
KEGG—京都基因与基因组百科全书
https://www.genome.jp/kegg
OMIM—人类孟德尔遗传在线
https://www.omim.org
【MOOC-生物信息学-生物数据库】相关推荐
- 【学习笔记】山东大学生物信息学-01 生物数据库
课程地址:山东大学生物信息学 文章目录 一.生物数据库 1.1 PubMed 文献数据库 1.2 一级核酸数据库 1.2.1 INSDC = Genbank + ENA + DDBJ 1.2.2 基因 ...
- 【生信MOOC】生物序列比对工具——多序列比对
[生信MOOC]生物序列比对工具2--多序列比对 文章的文字/图片/代码部分/全部来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用. 目录 [生信MOOC]生物序列比对工具2--多序列比对 1 ...
- 生物信息学生物影像_大规模生物学的五点原因
生物信息学生物影像 Technology and Scale's love affair is well-known, but their adoption of Biology has had it ...
- 生物信息学 生物科学、农学、林学、医学
生物信息学应用领域非常广泛,从学科划分来说,生物科学.农学.林学.医学等所有涉及生命的领域,都有生物信息学的身影.我们可以从三个视角来总结生物信息学的应用领域. 细胞 生物体 生命之树 一.从细胞角度 ...
- 生信学习--生物数据库大全
本文转自https://blog.csdn.net/g863402758/article/details/52957299 综合数据库 ★ INSD,国际核酸序列数据库(International N ...
- 生物数据库介绍——NCBI
NCBI(National Center for Biotechnology Information,美国国家生物技术信息中心)除了维护GenBank核酸序列数据库外,还提供数据分析和检索资源.NCB ...
- 给你的数据一个家,一个有DOI的地方 | 生物数据库承建
高通量测序技术的发展使得数据的获取越来越容易: 生物信息的发展为解析数据提出假说提供了很好的技术手段: 易生信培训搭建了很好的桥梁: 数据有了,分析结果有了,文章发表了,皆大欢喜! 来生信宝典和宏基因 ...
- 生物数据库建设,等你来~
高通量测序技术的发展使得数据的获取越来越容易,数据也累计越来越多: 生物信息的发展为解析数据提出假说提供了很好的技术手段: 数据有了,分析结果有了,文章发表了,皆大欢喜. 然后呢?为我们出力的数据怎么 ...
- 0055-【生物数据库】-如何进行RNA差异基因KEGG注释分析-kobas在线分析
1. 有参物种使用gene ID的方法 1. 差异基因文件准备 只需要用到两列 ENTREZ_GENE_ID logFC geneNames ENTREZ_GENE_ID normalAve tumo ...
最新文章
- 计算机软件基础-(软件开发过程管理)
- tomcat的安装和部署项目
- [Leetcode][JAVA] Reorder List
- 没学c语言可以学python_学了Python,但是没有学c,直接去学c++是可行的吗?
- 那个成人总会遇到的小问题……
- c语言线程不安全错误定位,C语言中的线程安全可破坏事件触发类#
- 学php还是golang,学swoole还是golang
- Pandas数据类型及操作
- JavaScript基本类型和引用类型
- JS倒计时:从某个固定时间开始倒记
- [Python] L1-034. 点赞 团体程序设计天梯赛GPLT
- Confluence 6 安全相关问题提交链接
- Android Studio的Project有某个项目,Build Variants却没有,如何添加物已有项目?
- 选择排序——Java排序算法
- 七个国外免费杀毒软件
- 世界尽头与冷酷仙境(村上春树)-摘录
- dalao自动报表邮件2.0
- python计算等差数列_python 等差数列末项计算方式
- iClap:产品经理再忙也要看《琅琊榜》
- oracle maxidletime,ORA-02396:超过最大空闲时间,请再次连接
热门文章
- Vant上传多个图片或视频,更改视频预览图
- iPhoneX 适配笔记
- 小试牛刀:使用EasyPaintToolSAI来制作动漫图片
- 国风就是帅,会三板吗,看看新天吧
- Access安全吗?Access安全性之QA详解
- dell加装固态硬盘_[图解]戴尔灵越15R 5537怎么更换加装固态硬盘?
- 电子设计之国赛准备-----(前言)
- 东方幻想乡/BadApple!!
- 七牛非Cocoapods 手动集成霹雳直播SDK(通用版)
- php 2个数组并集,php中数组的并集、交集和差集函数介绍_PHP教程