第九章  本体论、分子通路鉴定

9.1 本体论和基因本体论

  • 之前讲的很多都是算法以及网上的一些工具和软件,所有的工具都是用来分析生物学数据的,所以很多工具都要基于已有的训练集才能被开发出来。而这些数据是海量并且指数增长的,所以它们的存储是一个非常重要的生物信息学问题。
  • 比如说同一个基因WNT1, 又有很多其他的叫法,如,WNT-1; INT1; WINGLESS-TYPE MMTV INTEGRATION SITE FAMILY, MEMBERY 1; WINGLESS-TYPE MMTV INTEGRATION SITE FAMILY; 果蝇中同源基因 wingless, wg... 问题:如何告诉电脑这是同一个基因?
  • 在不同的物种中, 经常有相同的基因被取了不同的名字。在早期的生物学研究中,因为大家都专注于某一个物种研究,影响不大。但是因为上世纪90年代末,有多种物种的全基因被测出来了,包括比较早的酵母的基因组、线虫,到果蝇和人、小鼠基因组的草图也逐渐被绘制出来。
  • 大家发现很多的基因在不同物种之间是高度地保守的,而这些保守的基因在不同的物种里会被叫做不同的名字,这给全基因组注释带来了很多麻烦。(⊙o⊙)…那是不是建一个字典可以解决呢?
  • We need to define it for the computer: hierarchical,common,controlled vocabulary
  1. Entity: name, synonyms, acronyms, properties
  2. Relationship: e.g., is-a
  • 上述的vocabulary如果做得非常规范的时候,就可以被称为是一个ontology,本体论。
  • ontology:A specification of a conceptualization, a set of concepts within a domain, defined by a shared vocabulary to denote the types and properties of the concepts as well as the relationships between the concepts.
  • 本体论:针对你所研究的这个领域,定义一系列的概念,这些概念有一个共同的词库。这个词库定义了两件事情,一是领域中所有entity的名称、类型和特征,同时要定义概念之间的关系。
  • What does an ontology enable?
  1. Communication: to be able to communicate unambiguously
  2. Computation: to be able to represent knowledge in a computable form
  3. Discovery of Patterns: to be able traverse different hierarchies, ontology的结构非常重要,它可以让我们用电脑自动地找到一些超越单个基因之上的大的模式。
  • Open Biomedical Ontologies(OBO):
  1. Gene Ontology
  2. Anatomical Entity Ontology
  3. Disease Ontology
  4. Sequence Ontology
  5. System Biology Ontology
  6. ......
  • Gene Ontology (GO): The project began as a collaboration between three model organism genome databases: FlyBase, Saccharomyces(酵母) Genome Database (SGD0), and Mouse Genome Database(MGD) in 1998.
  • GO defines a structured, common, controlled vocabulary to describe attributes of genes and gene products across organisms.
  • Three categories:
  1. Molecular Function = elemental activity/task , 分子功能:基因产物它所形式的任务。
  2. Biological Process = biological goal or objective, 所参与的生物过程
  3. Cellular Component = location or complex,处的亚细胞的定位,聚合体等
  • 有向,无环图。所有的边都是有方向的,很像设计模式中的实体图。。。
  • How to store this graph in a computer?
  1. OBO file format, [Term] id, name, namespace(属于三大类中哪一类), def, synonym, is_a
  2. XML format,与html类似,go:term(开始和结尾符), go:accession, go:name, go:synonym, go:definition, go:isa, go:dexref(若这个基因在别的数据库中存在,此处存放链接)
  • GO relationship:
  1. is a : B is a subtype of A , 定义从属关系,有家族的关系
  2. part of : B is a part of A , 定义subunit和unit的关系。
  3. regulates : B regulates A, 分为 positive regulates 和 negative regulates
  • GO一共定义了近4万的概念,涉及到2000多个物种,注释了57万多基因,定义的关系包括7万5千多条。
  • AmiGO工具可以辅助浏览GO。

9.2 KEGG分子通路数据库

  • What is a biological pathway? A series of actions among molecules in a cell that leads to a certain product or a change in a cell.  细胞中的分子的一系列的行为最终生成某一个成品,或者对细胞有某种改变。
  • Main types of biological pathways:
  1. Metabolic pathways, 代谢通路,有原材料,一步一步加工变成一个产品
  2. Gene regulation pathways, 基因调控通路,就像工厂的product manger一样,根据外界的情况来调节哪些基因多表达一些或者少表达一些。
  3. Signal transduction pathways, 信号转导通路,就像sales manager一样把市场的信息反馈到生产里,把信息一步步从product manager传到supply manager,再传到工人中。
  • Pathway databases
  1. KEGG PATHWAY, 一个hierarchical的结构化的格式,包括Metabolism, Genetic Information  Processing, Environmental Inforamtion Processing, Cellular Processes, Organismal Systems, Human Diseases and so on. 最早是做代谢通路,所以代谢通路也是KEGG中最为完善的一类。
  2. BioCarta
  3. BioCyc
  4. Protein ANalysis THrough Evolutionary Relationships (PANTHER)
  5. Pathway Interaction Database (PID)
  6. Reactome
  • KEGG中比较重要的几类关系:蛋白与蛋白质之间的相互作用;基因表达之间的关系通过一个中间产物的表达的调控,包括表达和抑制,包括还有直接的表达调控和间接的表达调控;酶和酶之间作用通过连续的反应的两个步骤来定义。
  • KEGG Markup Language (KGML) format
  • KGML文件和XML文件非常相似。
  • KEGG中有一个被忽视但很重要的概念:KEGG Orthology (KO)
  • KO看起来和KEGG pathway有点像,但主要是来描述相关的基因的类似ontology的结构,它和Gene Ontology一样是一个四级的结构,不一样的是,它是四级的平的一个结构。

9.3 GO注释

  • Three types of GO annotations:
  1. Annotation through manually-reviewed experimental evidence, 大量的人读文献,把文献里的研究的基因分子功能录入到数据库,感觉这个工作,怎么校对呢?
  2. Annotation through manually-reviewed computational analysis evidence, 利用BLAST类似的方法把没有实验证据的基因通过序列相似性连接到与它相似的已知的基因。
  3. Annotation by electronically-generated computational analysis evidence
  • Annotation through manually-reviewed experimental evidence:
  1. IDA    Inferred from Direct Assay
  2. IPI     Inferred from Physical Interaction
  3. IMP   Inferred from  Mutant Phenotype
  4. IGI     Inferred from Genetic Interaction
  5. IEP     Inferred from Expression Pattern
  6. EXP     Inferred from Experiment
  • Annotation through manually-reviewed computational evidence:
  1. ISO     Inferred from Sequence Orthology
  2. ISA     Inferred from Sequence Alignment
  3. ISM    Inferred from Sequence Model
  4. ISS    Inferred from Sequence or Structural Similarity
  5. IGC    Inferred from Genomic Context
  6. IBA    Inferred from Biological aspect of Ancestor
  7. IBD    Inferred from Biological aspect of Descendant
  8. RCA    Inferred from Reviewed Computational Analysis
  9. IKR     Inferred from Key Residues
  10. IRD    Inferred from Rapid Divergence
  • Annotation by completely electronically generated computational analysis without manual review
  1. IEA     Inferred from Electronic Annotation
  • Misc other manual annotations
  1. TAS    Traceable Author Statement, 没有明确的实验证据支持,但是作者在discussion中提及过,若有cite paper
  2. NAS    Non‐traceable Author Statement, 若无cite paper
  3. IC        Inferred by Curator, 搞不清楚是什么证据
  4. ND       No biological Data available,没有data
  5. NR

《生物信息学:导论与方法》--本体论、分子通路鉴定--听课笔记(十八)相关推荐

  1. 《生物信息学:导论与方法》--本体论、分子通路鉴定--听课笔记(十九)

    第九章  本体论.分子通路鉴定 9.4 分子通路鉴定 You have got a set of genes or proteins from your experiments. How can yo ...

  2. 《生物信息学:导论与方法》--本体论、分子通路鉴定--听课笔记(二十)

    第九章  本体论.分子通路鉴定 9.7 KOBAS演示 KOBAS 貌似HK访问不了... KOBAS主要由两个部分组成:Annotate和Identify Annotate:将输入的基因注释到pat ...

  3. 《生物信息学:导论与方法》----新一代测序NGS:重测序的回帖和变异鉴定----听课笔记(八)

    第五章  新一代测序NGS:重测序的回帖和变异鉴定 5.1  新一代测序 从二十世纪前,人类认识到DNA的重要性后,一直以来将测序----确定一个特定DNA分子的序列----作为理解生命的重要方法. ...

  4. 《生物信息学:导论与方法》----新一代测序NGS:重测序的回帖和变异鉴定----听课笔记(九)

    第五章  新一代测序NGS 5.4 关于回帖.变异鉴定的补充材料 BWT算法是BWA软件所使用的压缩算法,它可以对数据进行无损压缩,它对字符串乱转后得到的字符矩阵进行排序和变换,使数据更容易被压缩. ...

  5. 《生物信息学:导论与方法》----导论与历史----听课笔记(一)

    北京大学----生物信息学:导论与方法(2013?) 第一章 导论与历史 1.1 什么是生物信息学 基因组就是ATCG这四个字母的简单的重复 人的基因组一共有31亿个碱基对,里面只有2.9%是编码蛋白 ...

  6. 西湖大学马丽佳博士: CRISPR遗传筛选中的细胞分子表型鉴定(多组学系列webinar)...

    第三期多组学系列研讨会有幸邀请到西湖大学马丽佳研究员将于2020年11月1日与大家分享CRISPR遗传筛选中的细胞分子表型鉴定技术与应用(Enable high content molecular p ...

  7. Nature:刘清华团队揭示调控睡眠时间的关键分子通路

    导读 你能做到一周不睡觉吗?良好的睡眠对我们保证生活质量十分重要.不过,有些人每天只需睡4-6个小时,有些人则需要8个小时(可能还不够),这是什么原因导致的? 其实,这也是很多科学家好奇的问题,最近, ...

  8. 计算机通路的基本概念,【生信学习笔记】KEGG分子通路数据库

    原标题:[生信学习笔记]KEGG分子通路数据库 首先什么是一个通路? 通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行 ...

  9. 2020年高等数学方法与提高(上海理工大学)学习笔记汇总

    写在前面: [1] 本系列文章涉及内容已与授课教师联系,已获得许可.如有不妥之处,请联系博主740925018@qq.com. [2] 对授课教师表示衷心感谢.贾老师的高等数学方法与提高.数学分析等课 ...

最新文章

  1. 网络营销专员表示网络营销中设置不当会影响蜘蛛爬虫对网站抓取
  2. Kinect学习(一):开发环境搭建
  3. java销售_销售转向java编程的开始之路
  4. r语言mvstats包_R语言交互式可视化包CanvasXpress
  5. 算法训练 最大的算式(动态规划)
  6. LeetCode 345. 反转字符串中的元音字母
  7. 约瑟夫环c语言程序完整版,C语言:约瑟夫环问题(源代码)
  8. mysql二进制日志查看工具_Python 简易web日志查看工具可改装为命令行工具
  9. 如何在Ubuntu 16.04中创建GIF动图
  10. 1.4.3 编写自己的模块和包
  11. sql还原数据库备份数据库_有关数据库备份,还原和恢复SQL面试问题–第IV部分
  12. docker入门实践之数据卷管理
  13. python 分数等级转换_一文读懂,新高考“3+1+2”模式中等级赋分如何换算?
  14. GTK真不容易,资料少,学得人也少!
  15. 理发店收银系统php,理发店收银系统优缺点
  16. PowerGUI错误-Microsoft SharePoint is not supported with version 4 of the Microsoft .Net Runtime
  17. 服务器防御DDoS的方法,一文解决DDoS攻击
  18. 敷衍没有出路,iPhone14同时被热捧和唾弃
  19. 【计算机史】早期人类的重要计算工具科普
  20. js原生后代选择器_js 后代选择器

热门文章

  1. MFI认证与PPID
  2. wsl(windows子系统)简要介绍和安装步骤
  3. 老旧小区改造浪潮下的智慧安防市场发展机遇
  4. Ubuntu18.04下的截图快捷方式
  5. A1、A2、A3、A4纸都是多大尺寸
  6. win10怎么把两个盘合成一个,win10怎么把分区合并
  7. win10配置计算机时强制关机,老鸟讲解Win10设置远程系统强制关机的详尽处理要领...
  8. 求矩阵的特征值和特征向量方法
  9. 使用python爬取电子书_怎样用python3爬取电子书网站所有下载链接
  10. 如何把照片制作成带音乐的影集相册?动感特效,简单实用!