生物信息学是一门利用计算机技术研究生物系统之规律的学科。它建立在分子生物学的基础之上,并以计算机为工具对生物信息进行存储、检索和分析。其研究重点体现在基因组学和蛋白质组学两个方面,具体来说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学是当今自然科学与生命科学的重大前沿科学之一。

一、 发展历程

1866年孟德尔从实验上提出了基因是以生物成分存在的假设,5年以后Miescher从死亡的白细胞核中分离出DNA,1944年Avery和McCarty证明了DNA是生命器官的遗传物质,同年Chargaff发现DNA中鸟嘌呤的量与胞嘧啶的总量总是相等,腺嘌呤与胸腺嘧啶的量相等。同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson和Francis Crick推测出DNA的双螺旋结构,DNA是以磷酸糖链形成的双股螺旋结构,脱氧核糖上的碱基按Chargaff规律构成的双股磷酸糖链之间的碱基对。这个模型表示DNA具有自身的互补结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。1954年Crick提出了中心法则(Central dogma),揭示了遗传信息的传递规律,即DNA是合成RNA的模板,RNA又是合成蛋白质的模板,其对分子生物学和生物信息学的法则都起到了极其重要的指导作用。分子生物学揭示了生命科学中的微观世界,对生命科学的发展起了巨大的推动作用。在分子生物学的研究过程中,产生了大量的生物信息数据,对大量生物信息数据的存储检索和分析可以借助计算机,因此分子生物学与计算机科学、数学、信息技术等学科交叉形成的生物信息学成了一种必然的趋势。

随着人类基因组工程测序的完成,生物信息学的研究又走向了一个高潮,在DNA自动测序技术的快速发展的推动下,DNA数据库中的核酸序列公共数据量飞速增长迅速膨胀。这使得我们面临着大量数据的组织和存储、检索的困难,而在巨大的数据量往往蕴含着潜在突破性发现的可能。在这种背景下就产生了生物信息学这一交叉学科。简单地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列、结构、演化及其与生物功能之间的关系,其研究设计到分子生物学、分子演化及结构生物学,统计学及计算机科学与技术等诸多领域。

二、 研究现状简介

生物信息学作为一门新兴的交叉学科领域,在短短的二十年的发展过程中,形成了如序列对比、蛋白质结构对比和预测、序列重叠群装配、代谢网络分析等多个研究方向。

1. 序列对比

序列对比(Sequence Alignment)的基本问题是比较两个或者两个以上符号的相似性或者不相似性。序列对比考虑了DNA序列的生物学特性,如局部发生的插入、删除和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐方法包括全局对齐,局部对齐,代沟惩罚等。通常采用的算法有动态规划算法,在序列长度较小的时候动态规划算法适用。然而当基因序列的数据量非常大的时候,这一方法就不太适用,甚至采用线性复杂度的算法也难以凑效。因此在序列对比中引入了启发式算法,如著名的BALST和FASTA算法。

2. 蛋白质结构对比和预测

蛋白质结构对比和预测是比较两个或者两个以上蛋白质分子空间结构的相似性或不相似性。一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。我们可以通过研究蛋白质结构对比和预测:在医药上可以理解生物的功能,寻找docking drugs的目标,在农业上可获得更好的农作物的基因,工业上有利于酶的合成。因为蛋白质的3维结构比其一级结构在进化中更稳定的保留,所以直接对蛋白质结构进行比对。蛋白质3维结构研究的有着如下一个假设,既内在的氨基酸序列与3维结构一一对应。

蛋白质结构的预测指的是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构,其本质是一个组合优化问题。同源建模(homology modeling)用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),指认(Threading)则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。

3. 序列重叠群装配

受到现行的测序技术的限制,每次反应只能测出500 或更多一些碱基对的序列,如在人类基因的测量过程中就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。这个过程从算法层次来看,序列的重叠群是一个NP-完全问题。

4. 代谢网络分析(Metabolic network)

代谢网络是将细胞内所有生化反应表示为一个网络,反映了所有参与代谢过程的化合物之间以及所有催化酶之间的相互作用,是对细胞代谢过程的抽象表达。由于在生命过程中代谢活动在是不断发生的,代谢网络随时变化。由于大量反应的动力学参数都是未知的,使得其动力学研究受到限制,而基于网络拓扑结构的静态分析得到了广泛的应用。静态的代谢网络分析主要有三类研究方法:流平衡分析;基元模式分析和极端途径分析;图论方法。

5. 基于结构的药物设计

人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。

6. 生物信息学技术方法

生物信息学中产生的海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 因此提出了非参数统计、聚类分析等更加灵活的数据分析技术。在高维数据的分析中引入了偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的设计时,需要充分考虑算法的时间和空间复杂度,使用分布式并行计算、网格计算等技术来实现高效的算法。

三、 前景展望

生物信息学是一门利用计算机技术研究生物系统之规律的学科。自从人类基因组计划开展后, 大量的生物基因序列被测定, 如何从这些海量的数据中发现其生物学意义, 就需要借助计算机数据库和计算机算法分析预测的手段。生物信息学的发展在国内外基本上都处在起步阶段, 所拥有的条件也大体相同。那么谁能够更充分更高效更快捷地利用信息科学、控制科学、计算机科学等高技术手段来分析和理解数据, 谁就能最先发现新线索、新现象和新规律, 也是其在生物信息学研究领域取得领先地位的先决条件。生物信息学是一门非常有发展远景的科学, 现代信息技术则是它不可或缺的研究手段。

生物信息学简介 -整理综合相关推荐

  1. 正则表达式简介 -- 整理 by Emerald 绿色学院 - Green Institute

    目录: ------------------------------------------------------------------------------------ 1.正则表达式 2.早 ...

  2. 计算机技术与生物学的关系,生物信息学复习整理

    生信整理 一.重要概念 1. 生物信息学的定义.研究内容.组成 采用信息学的方法来研究生命科学 定义:生物信息学迄今为止尚没有一个标准定义 (广义:生命科学中的信息科学.生物体系和过程中信息的存贮.传 ...

  3. 整理综合布线系统中材料用量的计算公式

         RJ-45头的需求量:m=n*4+n*4*15%<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:offi ...

  4. 工作常用——python+appium自动化入门简介整理——用于内部培训

  5. T总线槽计算机知识,综合布线知识点试题lpar;答案rpar;

    综合布线习题集 单项选试题 知识点:工作区子系统 1. 工作区子系统又称( C )子系统. (A) 工作站 (B )服务群 (C) 服务区 (D) 信息站 2. 工作区子系统由( D )与信息座所接的 ...

  6. 数据科学导论复习个人整理

    综合了各方的材料整理综合了这一份 但是考试被EDA打脸(doge) 把图片删了,老师课件外传不好 所以涉及老师课件的图都删了,只写知识点名称 大数据概述 1.大数据时代技术支撑:存储设备容量不断增加. ...

  7. 二代测序技术中生物信息学的应用

    随着科学技术的巨大进步,产生了大量的"组学"数据.理解生物系统各个层次产生的大量序列和结构数据是关键,由此产生了"生物信息学". "生物信息学&quo ...

  8. 【最新】2020年注册测绘师考试测绘综合能力真题及参考答案

    [最新]2020年注册测绘师考试测绘综合能力真题及参考答案 [最新]2022年注册测绘师考试测绘综合能力真题及参考答案 [最新]2021年注册测绘师考试测绘综合能力真题及参考答案 [最新]2020年注 ...

  9. 水务综合运营管理系统

    水务综合运营管理系统采用平台化.模块化设计,在不影响现有自控系统和应用软件稳定运行的情况下,进行灵活方便的功能组合和功能扩展.从而顺应企业管理变革与成长中不断变化的需求,长久保护企业信息化建设投资. ...

最新文章

  1. Office EXCEL 如何为宏命令指定快捷键或者重新设置快捷键
  2. 新一轮的心情整理(有二年没来这里了)
  3. adb shell命令_[Android]adb的使用
  4. 【吐槽】VS2012的安装项目只能用InstallShield Limited Edition
  5. python的sort()和sorted()的区别_Python 3中sort()和sorted()的区别和用法,Python3
  6. 详解CvScalar类型
  7. java 企业级应用设计规范_一步一步理解Java 企业级应用的可扩展性
  8. ExtJs之工具栏及菜单栏
  9. EasyUI可编辑列
  10. yum 崩溃的解决方法
  11. 【转】hadoop2.6 配置lzo压缩
  12. python人脸识别系统界面_人脸识别演示界面:python GUI--tkinter实战(1)
  13. 网页媒体播放利器 - JW Player的demo
  14. 百度地图 创建应用
  15. 【jiasuba】让Win7系统下的硬盘不在狂闪的诀窍
  16. 良心,是黑暗里的一盏灯
  17. error: cannot lock ref ‘refs/remotes/origin/master‘
  18. app界面设计是什么?需要学习什么UI软件
  19. Unity发布内嵌网页的PC客户端
  20. ProcessDefinition是干这个用的

热门文章

  1. 【Unity3D修改Text创建时的默认字体】
  2. 人工智能很危险!?开发需谨慎?
  3. 今日免费PNG图标集下载 - SweetiePlus
  4. PNG图片生成CSS图标字体
  5. Servlet知识点小结
  6. DCDC电路-自举电容的作用
  7. 搞懂事件循环,面试不再害怕console输出问题。(自整)
  8. Esp8266天猫精灵_RGB灯_非点灯平台
  9. [转载]AutoIT3 vs AutoHotkey
  10. Vue——基础语法篇