【学习笔记】山东大学生物信息学-01 生物数据库
课程地址:山东大学生物信息学
文章目录
- 一、生物数据库
- 1.1 PubMed 文献数据库
- 1.2 一级核酸数据库
- 1.2.1 INSDC = Genbank + ENA + DDBJ
- 1.2.2 基因组数据库 Ensemble
- 1.2.3 微生物宏基因组数据库
- 1.3 二级核酸数据库
- 1.4 一级蛋白质序列数据库 UniProt
- 1.5 一级蛋白质结构数据库 PBD
- 1.6 二级蛋白质数据库 Pfam,CATH,SCOP2
- 1.7 专用数据库 KEGG,OMIM
一、生物数据库
1.1 PubMed 文献数据库
- PubMed 文献记录的内部结构
- 按作者名 AU 搜索:Down [AU]
- 按标题 TI 搜索:Down [TI]
- 按实验室地址 AD 搜索:Down [AD]
- 关于使用 PubMed 的几个小建议:
使用引号(“down syndrome” )
使用逻辑词 AND, OR, NOT(dUTPase [T] AND bacteria [T] NOT Smith [AU])
使用正确的名字缩写 (“Abergel C”)
使用每篇文献唯一的 PubMed ID(PMID: 24933525)
1.2 一级核酸数据库
1.2.1 INSDC = Genbank + ENA + DDBJ
- NCBI GenBank
- ENA 欧洲核苷酸序列数据集
- DDBJ 日本 DNA 数据库
- Genbank,ENA 与 DDBJ 共同构成国际核酸序列数据库合作联盟 (International Nucleotide Sequence Database Collaboration, INSDC)。通过 INSDC,三大核酸数据库的信息每日相互交换、更新汇总,这使得他们几乎在任何时候都享有相同的数据。
- 原核生物与真核生物基因的不同:
GenBank
(1)原核生物核酸序列: Nucleotide 中搜索 X01714
LOCUS:基因名
ACCESSION:基因编号,唯一不变
FEATURES:描述核酸序列中各个已确定的片段区域,包含很多子条目,比如来源 (source),启动子 (promoter) 等。
- source:说明了核酸序列的来源,据此可以容易的分辨出该序列是来源于克隆载体还是基因组。当前序列(全长)来源于大肠杆菌的基因组 DNA。
- promoter:列出了启动子的位置。细菌有两个启动子区,一个 -35 区 (5’-TTGACA-3’) 位置在第 286 个碱基到第 291 个碱基,一个 -10 区 (5’-TATAAT-3’) 位置在第 310 个碱基到第 316 个碱基。
- misc_feature
- CDS (Coding Segment) : 记录了一个 ORF ( open reading frame),从第 343 个碱基开始的 ATG(起始密码子)到第 798 个碱基结束的 TAA (结束密码子)。除了第一行的位置信息,还包括翻译产物(蛋白质)的诸多信息。
FASTA 格式:
第一行,大于号加名称或其它注释
第二行以后:序列,每行 60 个字母
Graphics:获得序列的图形概览
下载纯文本格式 (Flat File) 的数据库记录
(2)真核生物核酸序列 mRNA: Nucleotide 中搜索 dUTPase 的 成熟 mRNA 序列信息 U90223。
- 注意看清 CDS 的 note 部分,这里编码的是线粒体型的
- CDS 和 mat_peptide 末尾差了 3 个碱基,因为 CDS 最后 3 个碱基是终止密码子,不翻译氨基酸。
(3)真核生物核酸序列 DNA: Nucleotide 中搜索 dUTPase 的 基因组 DNA 序列信息 AF018430。 - source / map
- gene / mRNA
- 剪切后形成的 mRNA 有 2 种:
上面的 mRNA 多一个外显子,将被翻译成定位线粒体的信号肽,从而翻译出 线粒体型(mitochondrial form
) 蛋白质。
下面没有信号肽的 mRNA 将被翻译成 细胞核型(nuclear form
) 蛋白质。
- exon:当前这个序列所包含的外显子的位置及编号。
1.2.2 基因组数据库 Ensemble
- Ensemble
- 详见视频:2.5-级核酸数据库:基因组数据库-01 P14
1.2.3 微生物宏基因组数据库
- 美国国立卫生研究所 (NIH) 建立了人类微生物组学计划 (Human Microbiome Project,HMP)。目前 HMP 主要包括了人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程。
- Human Microbiome Project Data Portal
1.3 二级核酸数据库
- RefSeq 数据库:参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。
- dbEST 数据库:表达序列标签数据库,包含来源于不同物种的表达序列标签 (EST)。
- Gene 数据库:为用户提供基因序列注释和检索服务,收录了来自 5300 多个物种的 430 万条基因记录。
- 非编码 RNA 数据库:ncRNA databases 汇总
1.4 一级蛋白质序列数据库 UniProt
- UniProt = Swiss-Prot + TrEMBL + PIR
- UniProt 三个层次数据库:
◆ UniParc: 收录所有 UniProt 数据库子库中的蛋白质序列,量大,粗糙。
◆ UniRef: 归纳 UniProt 几个主要数据库并将重复序列去除后的数据库。
◆ UniProtKB: 有详细注释 并与其他数据库有链接的数据库,分为 UniProtKB/Swiss-Prot(人工注释,reviewed) 和 UniProtKB/TrEMBL(计算机自动注释,not reviewed)。 - 详见视频:一级蛋白质序列数据库:UniProtKB-02 P18
1.5 一级蛋白质结构数据库 PBD
● 蛋白质的结构可分为四级:
- 一级结构 Primary structure: 氨基酸序列
- 二级结构 Secondary structure:周期性的结构构象,α 螺旋,β折叠等
- 三级结构 Tertiary structure:整条多肽链的三维空间结构,3D 结构
- 四级结构 Quaternary structure:几个蛋白质分子(亚基)形成的复合体,如四聚体
● 蛋白质结构数据库 (Protein Data Bank, PDB) 是全世界唯一存储生物大分子 3D 结构的数据库。这些生物大分子除了蛋白质以外还包括核酸及两者的复合物。只有通过实验方法获得的 3D 结构才会被收入其中。目前 PDB 数据库每周更新一次,至今,PDB 收录的结构数据已超过十二万条,其中 90%以上为蛋白质结构。
- 详见视频:一级蛋白质结构数据库:PDB-01 P20
- PDB ID:数据库检索号,一个结构对应一个 PBD ID,而不是一个蛋白质对应一个 PBD ID。
- PDB 文件注释解读:一级蛋白质结构数据库:PDB-02 P21
- PDB 文件 3D 展示 JSmal:一级蛋白质结构数据库:PDB-03 P22
1.6 二级蛋白质数据库 Pfam,CATH,SCOP2
- 详见视频:二级蛋白质数据库:Pfam,CATH,SCOP2 P23-P25
- Pfam 数据库 是一个蛋白质结构域家族的集合。
- CATH 数据库:结构分类数据库。CATH-Gene3D 还为超过 500 万条来自公共数据库的蛋白质序列进行了结构分类预测。Gene3D 里的信息为绝大多数还未解析 3D 结构的蛋白质提供了重要的功能研究依据。
- SCOP2 数据库:结构分类数据库。更多考虑蛋白质的进化关系。SCOP2 分类基于四个层次:从顶部到底部分别为类 (Class)、家族 (Family)、超家族 (Super family) 和折叠 (Fold)。
1.7 专用数据库 KEGG,OMIM
- 详见视频:专用数据库 KEGG,OMIM P26-P27
- KEGG 是关于基因、蛋白质、生化反应以及通路的综合生物信息数据库,由多个子库构成。
- OMIM 人类孟德尔遗传在线数据库 (Online Mendel Inheritance Inheritance in Man) ,是一个将遗传病分类,并链接到相关人类基因组中的数据库。OMIM为临床医生和科研人员提供了权威可信的关于遗传疾病及相关疾病基因位点的详细信息。
【学习笔记】山东大学生物信息学-01 生物数据库相关推荐
- mysql连接池永驻_【学习笔记】Oracle连接池 数据库常驻连接池(Database Resident Connection Pool)案例介绍...
天萃荷净 分享一篇关于应用程序与Oracle数据库连接的连接方法介绍,数据库常驻连接池(Database Resident Connection Pool)案例介绍 一.介绍常驻连接池(Databas ...
- Python学习笔记:使用Python操作数据库
Python学习笔记:使用Python操作数据库 一.数据库编程接口 为了对数据库进行统一的操作,大多数语言都提供了简单的.标准化的数据库接口(API).在Python Database API 2. ...
- GAMES101-现代计算机图形学学习笔记(作业01)
GAMES101-现代计算机图形学学习笔记(作业01) Assignment 01 GAMES101-现代计算机图形学学习笔记(作业01) 作业 作业描述 需要补充的函数 思路 结果 原课程视频链接以 ...
- python爬虫学习笔记2模拟登录与数据库
前言 为了加入学校里面一个技术小组,我接受了写一个爬取学校网站通知公告的任务.这个任务比以前写的爬虫更难的地方在于,需要模拟登录才能获得页面,以及将得到的数据存入数据库. 本文按照日期来记录我完成任务 ...
- 计算机通路的基本概念,【生信学习笔记】KEGG分子通路数据库
原标题:[生信学习笔记]KEGG分子通路数据库 首先什么是一个通路? 通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行 ...
- arduino 学习笔记及课件01基础入门
arduino 学习笔记及课件01基础入门 以下学习笔记中图片部分由太极创客视频截图所得 概论 一. 引脚及信号 1.1引脚模式 INPUT:当Arduino没有使用上拉电阻或下拉电阻而直接与开放的开 ...
- MySQL服务器学习笔记!(二) ——数据库各项操作
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://foreveryan.blog.51cto.com/3508502/657640 ...
- 《Python自然语言处理(第二版)-Steven Bird等》学习笔记:第01章 语言处理与Python
第01章 语言处理与Python 1.1 语言计算:文本和单词 Python入门 NLTK 入门 搜索文本 计数词汇 1.2 近观Python:将文本当做词链表 链表(list,也叫列表) 索引列表 ...
- oracle学习笔记(二)--创建数据库
Oracle创建数据库 先用向导看看好使不,开始菜单中Oracle - OraDb10g_home1 | Configuration and Migration Tools | Database Co ...
最新文章
- 设计模式总结 (1)模式分类
- 正则表达式变量名命名的规则_如何简单有效地提高代码质量?修改变量名即可...
- DVWA设置mysql_解决DVWA配置报错
- 网络计算机室电源线怎么布,网吧综合布线(电源和网络)经验谈
- 20181127-1 附加作业 软件工程原则的应用实例分析
- the android emulator process,Android studio报错:The emulator process for AVD (xxx) was killed
- 回味Python2.7——笔记3
- 腾讯自己与自己的战争
- virtualbox win7虚拟机启动exe提示“DX11 could not switch resolution”解决方案
- k近邻(kNN)算法的Python实现(基于欧氏距离)
- 计算机系统盘制作,一步步教你怎样制作U盘电脑系统,以后电脑装系统不求人...
- 上传图片预览图片方向错误
- 交换机软件测试,交换机性能测试方法
- 附近商家位置java开发附近定位
- java获取指定格式的年月日时分秒时间
- 联想y700台式计算机图片,联想发布Y700/Y900台式PC和Y700游戏笔记本
- Linux下使用GPIO模拟I2C IIC驱动(PCF8563)
- 玩家角色信息是保存在服务器上吗,Reworld使用存储服务存储玩家的数据
- Java初学者入门简介
- 计算机win7知识,直观:计算机win7双显示器的设置方法_计算机的基本知识_IT /计算机_信息...
热门文章
- 二、VSCode——MiKTeX编写latex编码
- Windows操作系统各版本的历史 Windows系统历史版本简介
- ACL 2022 | DialogVED:用于对话回复生成的预训练隐变量编码-解码模型
- python字符串排列组合子集_python编程题:字符串的(所有可能的)排列组合
- View与ViewGroup
- 2013驾考科目一理论知识重点归纳
- EditPlus正则表达式替换字符串详解
- 用8266学习单片机-13-HC-SR04超声波模块测距示例-Ultrasonic-US-015
- 如何解决MySql报错:only_full_groupBy
- app渗透之Burp抓取app数据包