【果壳笔记】生物信息学——陈润生老师部分
【果壳笔记】生物信息学——陈润生老师部分
本文部分图片来源网络或学术论文,文字部分来源网络与学术论文,仅供学习使用。
目录
【果壳笔记】生物信息学——陈润生老师部分
1、什么是生物信息学?具体的任务是什么?生物信息学为什么重要?
2、利用数据库资源如何发现新基因,它有哪些途径,其算法本质是什么?
3、利用核酸或蛋白质序列数据进行生物进化研究有哪些计算步骤?在这一领域当前存在的重要困难是什么?有何解决途径?
4、什么是SNP?为什么SNP的研究是重要的?SNР研究有哪些优点举出2~3个SNP相关的网站。
5、系统生物学的定义?生物学、系统生物学对生命科学概念上的发展?系统生物学对生物功能实现的理解有何本质变化?系统生物学的研究思路是什么?
6、什么是非编码序列,非编码RNA,非编码基因?以人的基因组为例回答:在基因组中有多少非编码序列,有多少存在转录本,举2~3个非编码核酸的生物学功能
7、请以人类基因组为例,非编码区所占的比例按在基因组中的位置/组成/功能区分,非编码序列有哪些组分它们所占比例如何?按序列编码特征区分,非编码序列有哪些组分它们所占比例如何?
8、精准医学的重大意义是什么?实现精准医学的重要基础是什么?
1、什么是生物信息学?具体的任务是什么?生物信息学为什么重要?
生物信息学的定义:生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析、解释的所有方面。生物信息学是基因DNA序列分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质,同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
具体任务:生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,它是自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。
为什么重要?(自由回答):生物信息学的重要性是毋庸置疑的,随着人类和其他生物的基因组逐渐破译和各种测序技术的发展,目前积累了大量生物信息。生物信息学将在“后基因组”的时代,发挥极其重要的作用,这有助于全部读懂人类基因组的全部信息,有助于揭示基因组物质结构的复杂性,有助于生命起源和生物进化问题的最终解决,有助于识别与鉴定人类特定疾病的相关基因,有助于药物设计理论和方法的改进和提高等等工作,因此,生物信息分析具有很大的重要性。
2、利用数据库资源如何发现新基因,它有哪些途径,其算法本质是什么?
答:利用数据库发现新基因的两种途径及其本质如下:
(1)利用基因组DNA序列数据库预测新的基因。其本质是通过识别DNA序列进行预测。
如基于信号的方法,识别DNA序列中的功能位点:包括剪接位点、起始密码子和终止密码子、分支点、转录的启动子和终止子、多聚腺苷化位点、核糖体结合位点、拓扑异构酶II结合位点、拓扑异构酶I切割位点、以及各种转录因子结合位点。
或基于组分的方法,使用统计学方法和序列比对方法进行基因家族、特殊序列见比较,如复杂性分析、神经网络、隐马尔科夫方法 (HMM) 等方法。
(2)利用EST数据库(dbEST)发现新基因和新SNPs。其本质是通过对基因片段的拼接和组装产生一个完整的基因序列,与现有的EST数据库中序列进行比较进而发现新基因。当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。EST数据也可用来帮助研究基因的可变剪接和发现非编码RNA。
3、利用核酸或蛋白质序列数据进行生物进化研究有哪些计算步骤?在这一领域当前存在的重要困难是什么?有何解决途径?
答:计算步骤主要有以下四步:
(1)序列相似性比较。将待研究序列与DNA或蛋白质序列库进行比较,确定该序列的生物属性,即找出与此序列相似的已知序列。需要使用两两序列比较算法,常用程序包有BLAST、FASTA等。
(2)序列同源性分析。将待研究序列加入到一组与之同源但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。需使用多序列比较算法,常用的程序包有CLUSTAL等。
(3)构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。目前已有多种软件包,常用PYLIP、MEGA等。
(4)稳定性检验。为了检验建好的进化树的可靠性,需进行统计可靠性检验,通常构建过程要随机的进行成百上千次,只有以大概率(>70%)出现的分支点才是可靠的。使用Bootstrap算法,相应的软件已包括在构建系统进化树所用软件包当中。
目前遇到的问题:基因会发生横向迁移(LGT)的现象,即进化不同的不同物种间存在遗传信息基因的传递,横向迁移基因造成分析的干扰。
解决办法:
(1)从数据库中将认为可能是横向迁移的基因序列去除。
(2)用全基因组水平上的比较和分析,发展新的算法,如CISA算法。
4、什么是SNP?为什么SNP的研究是重要的?SNР研究有哪些优点举出2~3个SNP相关的网站。
定义:SNP是指单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,代表了基因组水平上遗传密码的变异,由于这种变异很多以单碱基突变的形式出现,因此称为单核苷酸多态性:它反映了不同个体间、正常与异常个体之间基因组上的差别,现在这个概念有所扩大,不限于一个核苷酸的差异。
重要性:(从意义、特点、重要性、优点几方面回答)
因为SNP研究是基因组领域理论成果走向应用的关键步骤,是联系基因型和表现型之间关系的桥梁,是研究人类基因组计划走向应用的重要步骤。(PPT上的)
SNP的特点:1.位点丰富;2.具有代表性;3.遗传稳定性;4.易于进行自动化,规模化分析,缩短了研究时间。
SNP研究意义:通过大批量、高通量的SNP的发现与鉴定,人类SNP—Haplotype遗传图谱的构建,在连锁不平衡基础上的关联分析等,有望为人类致命基因的寻找和疾病的防治提供快速和有效的途径,一系列发现和检测SNP的方法,构建图谱的策略,及连锁不平衡和关联分析等技术,正在动植物研究领域中受到广泛的关注,毫无疑问将在分子和群体遗传、动植物育种和生物进化等研究领域中发挥越来越大的作用。
优点:
(1)SNP在基因组中分布相当广泛,大量存在的SNP位点使人们有机会发现与各种疾病相关的基因组突变,包括肿瘤相关的基因组突变。
(2) 从实验操作来看,通过SNP发现疾病相关基因突变比通过家系发现更加容易。
(3)有些不直接导致疾病基因表达的SNP,但由于与某些疾病基因相邻,成为重要标记,这样的标记有助于发现疾病基因。
(4) SNP在基础研究中非常重要,如人类对Y染色体SNP分析使得在人类进化、人类种群的演化和迁徙领域取得一系列重要成果。
SNP相关的一些网站:
- SNP Consortium's database. (http://snp.cshl.org/index.html ). 该数据库由冷泉港实验室维护,其May 2001版本中包含有1,034,034个SNP, 它们全部被锚定到人类基因组的工作草图上。
- NCBI SNP database。(http://www.ncbi.nlm.nih.gov/SNP/overview.html)。该数据库将数据进行整理,去掉冗余,使每个SNP都是唯一的。此时的SNP被称为reference SNP 或refSNP,对每个这样的SNP都设定一个标号,称为rs ID。整理后,人类的refSNP总数为1,805,951。
- The Human Genic Bi-Allelic Sequences Database(HGBASE)。(http://hgbase.cgr.ki.se/)这一数据库收录了人基因组中所有已知的序列变化,包括:SNPs、序列的插入和缺失(Indels)、简单重复序列等。
- The Human Gene Mutation Database (HGMD )( http://www.hgmd.org/)
- The Protein Mutant Database(PMD),(http://pmd.ddbj.nig.ac.jp/)。它不是核酸突变数据库,而是蛋白突变数据库。收录了蛋白质特定位点的氨基酸突变信息,以及这些突变对蛋白质结构功能的影响。
5、系统生物学的定义?生物学、系统生物学对生命科学概念上的发展?系统生物学对生物功能实现的理解有何本质变化?系统生物学的研究思路是什么?
系统生物学的定义:系统生物学就是从各个层次的所有资料和数据,包括基因组测序数据,功能基因组数据,蛋白质三维结构信息以及相互作用的数据等,以及这些整合数据为基础建立数学模型,再以这些模型模拟仿真研究生命活动的演化方向和状态,以及受到外界对系统的影响和受到干扰后的状态。系统生物学是在系统的层面上研究生命活动,研究一个生物系统中所有组成成分的构成,以及特定条件下组分间互作关系。
学术概念上的发展主要有:
传统生物学是从基因组到基因再到蛋白的过程,直线型的关系。相信结构完成了功能。系统生物学认为任何生命活动过程都并非是一个蛋白或基因能实现的,任何的生命活动同时很多基因表达来实现,每个基因表达出了很多结构相互作用,而每个基因间形成很大的网络,是这个网络表达了功能,一个基因表达一个分子,很多基因表达很多分子,分子间相互作用。
1)研究思路的变化:传统的分子生物学研究步骤一般为: DNA序列→蛋白结构→蛋白功能(一维),而系统生物学是在二维的角度研究生命科学,即:相互作用→网络→功能,是由一组基因产生并相互作用共同实现的。
2)看待生命活动本质的变化:系统生物学认为生命活动是由一组基因及其相互作用来实现其过程的,这种相互作用形成了一个网络,既包括每个单元的结构,又包括单元与单元之间的相互作用,因此在考虑结构的过程中考虑其结构间的相互作用,一组一组地研究。而传统的分子生物学考虑的只有结构,是一个一个地去研究。
系统生物学对生物功能实现的理解发生本质性变化:
系统生物学不仅考虑单个分子而且考虑其间相互作用,把整个生命活动作为一个相互作用的网络来研究其功能,基因组只是网络中的一部分,只有通过相互作用的网络才能体现功能。通过系统地整合生物过程不同阶段的分散数据,如基因组,转录组,蛋白组,代谢组,可以对复杂的生物过程,如折叠、信号传导途径、代谢途径更好地模拟,研究生物过程的动态变化。它不仅全息的了解复杂的生命系统中的所有成分以及他们之间的动态联系,还可以预测如果这个系统一旦受到了刺激和外界干扰,系统未来的行为是什么。
系统生物学与分子生物学的不同:
分子生物学:序列→结构→功能,只考虑单个个体,单个gene,单个蛋白质。分子生物学的研究采用典型的还原论方法,研究对象主要是分子水平上的,即生物系统中的大分子、信号分子的结构、生化性质以及功能,基因表达过程中的调控,以及DNA重组。
系统生物学:相互作用→网络→功能,除考虑单个个体,单个gene,还考虑个体与个体之间的相互作用,把整个生命活动作为一个网络来考查它们的相互作用。
系统生物学研究是从各个层次的相互作用到网络,再到功能。系统生物学不仅考虑单个分子,而且考虑其间相互作用,认为生命活动由大量相互作用的结构单元组成,这些结构单元形成网络。基因组只是网络中的一部分,只有通过相互作用的网络才能体现功能。不仅全总的了解复杂的生命系统中的所有成分以及他们之间的动态联系,还可以预测如果这个系统一旦受到了刺激和外界干扰,系统未来的行为是什么。
分子生物学与系统生物学的联系
系统生物学虽然在研究对象上与分子生物学不同,但他们之间并不是完全不相关的,系统生物学的研究离不开分子生物学研究所给出的大量资料和数据,正是依赖这些,系统生物学才有了建模的基础。
同时分子生物学的研究结果只有通过系统生物学进行整合才能从理论上对系统的宏观性质达到定性定量的理解,反过来,系统生物学的研究成果也可以用来指导分子生物学的实验设计。因此二者之间其实是相互补充的,只有结合起来,才能充分认识生命现象。
系统生物学的研究思路(研究流程):
- 整合数据。针对选定生物系统进行实验设计,了解系统所有组成成分,即整合所有各个层次(DNA水平,RNA 水平,蛋白质水平,蛋白质相互作用水平)的信息数据。
- 系统建模。即用这些信息构建描绘生命活动的数学模型。通过系统行为动力学分析,总结系统设计和控制规律。
- 预测未知。即用这个模型预测生命未来的发展及外界干扰后系统的变异,生命活动及外界因素变化对其产生的影响。
6、什么是非编码序列,非编码RNA,非编码基因?以人的基因组为例回答:在基因组中有多少非编码序列,有多少存在转录本,举2~3个非编码核酸的生物学功能
非编码序列定义:是基因组中不编码蛋白质和多肽的序列。基因组中不归属于基因调控元件,稳定元件之外的,也无明确生物学功能意义的基因序列统称为非编码序列,即不编码蛋白质同时也无明确生物学功能的序列。
非编码RNA定义:是指来自基因组的非编码的转录元件,即基因组中非编码序列的转录产物/转录本。
非编码基因定义:指那些具有明确生物学功能的非编码RNA 在基因组上非编码序列上的位置,即功能性的非编码 RNA对应基因组上的位置称为非编码基因。
人类基因组中97~98%的序列是非编码序列,有70%~80%存在转录本。
非编码RNA的生物学功能:
(1)SINEs (短散在核重复序列):广布于真核生物, 是基因组中的可移动成分,长度一般为80-500bp,通过“拷贝-粘贴”的方式进 行转座。将重复序列插入基因会影响基因的转录。SINEs和其他重复序列可以作为邻近基因的组织特异性增强子或沉默子。
(2)X-inactivation(X染色体失活):是哺乳动物的一种剂量补偿机制,用于平衡雄性和雌性细胞之间的X-连锁基因剂量。雌性体细胞中一条X染色体的转录沉默,抑制转录是通过一个2kb 的非编码RNA(Xist RNA)实现的,Xist RNA装配在失活X染色体的外侧,引起结构改变导致失活。
(3)Small RNA and RNAi短干扰RNA和RNA干扰:是由RNA(siRNA、microRNA)导致的转录后基因沉默现象,如由双链小RNA引起的干扰和转录后基因沉默现象,在植物病毒抗性和线虫中的转座子沉默。
7、请以人类基因组为例,非编码区所占的比例按在基因组中的位置/组成/功能区分,非编码序列有哪些组分它们所占比例如何?按序列编码特征区分,非编码序列有哪些组分它们所占比例如何?
按照在基因组中的位置(组成)来分,各个组分占基因组的份额:
- 编码基因(编码蛋白质和tRNA、rRNA):2%
- 内含子lntron(广义):25%
- 端粒、中心粒等特定位置:12% :基因间序列:60-70%
按照在基因组中的功能区分,各个组分占基因组的份额:
- 功能蛋白质基因%,功能RNA基因%,总共大约1-3%
- 内含子:24%
- Satellite DNA(主要分布在中心粒和端粒):12%
- 基因间序列( Intergene DNA):60-70%
按照序列特征区分,各个组分占基因组的份额:
- 编码区(包括编码蛋白质和 tRNA 和rRNA 的基因)占总基因组:2%
- 非编码区占到98%,其中:
- 简单重复序列:12%
- 散在重复序列:45%
- 假基因:1%
- 非编码非重复序列:35-40%
8、精准医学的重大意义是什么?实现精准医学的重要基础是什么?
精准医学的意义:
- 精准医学的核心是组学大数据与医学的结合。组学数据包括基因组、转录组、蛋白组、代谢组和表观遗传组等。精准医学包括精准诊断和精准治疗。
- 精准医学可以以临床应用为导向,形成重大疾病的风险评估、预测预警、早期筛查、分型分类、个体化治疗、疗效和安全性预测及监控等精准防诊治方案和临床决策系统。通过组学等一系列研究,评估现在的健康状况。在健康检查的基础上,对未来可能导致疾病的部分进行干预,使得能够延缓疾病的发生,或者排除某些疾病的发生,使得健康得以保障。
- 精准医学有可能导致医疗体系本质上的转变,从诊断治疗到健康保障。把目前的医疗体系由诊断治疗过渡到健康保障。
- 精准医学研究成为新一轮国家科技竞争和引领国际发展潮流的战略制高点。
- 精准医学的发展将带动相关产业快速发展,孕育巨大市场空间。
实现精准医学的重要基础:
1、获取分子水平上的数据信息,使用大数据分析技术挖掘组学数据,精准医学是大数据与组学的交汇。组学数据包括基因组,转录组,蛋白质组,代谢组。大数据包括人群和队列
2、建立分子水平上的知识与宏观疾病表型的联系。即基因型和表型的关联,搭建分子水平信息和疾病间的桥梁,在搭建桥梁时,生物信息学,生物网络,系统生物学的知识是其核心知识。
3、在此基础上,融合临床检验,影像学等指标,使得医学做得更加精准。
【果壳笔记】生物信息学——陈润生老师部分相关推荐
- 陈润生院士:我给自己取了个微信名,叫“微不足道”
--让热爱与成长,在记者团生根发芽 全文字数:4936 阅读时间:15分钟 编者按 "当院士前后,从来没有任何区别""我给自己取了个微信名叫'微不足道'"--一 ...
- QB期刊 | 纪念HGP20周年系列文章3:陈润生院士回顾我国早期生物信息学的发展...
2021年是人类基因组草图公布的20周年,QB期刊非常荣幸地邀请到了一批曾在人类基因组计划(HGP)中发挥重要作用并做出突出贡献.或见证HGP重大进展和影响的杰出科学家,为大家分享HGP背后的故事.我 ...
- GPB | 陈润生/何顺民团队发布新版SmProt数据库,提供小蛋白丰富、可靠的系统性注释...
小蛋白是翻译自小开放阅读框(small open reading frame, sORF).长度低于100个氨基酸的蛋白质,在此前的基因组注释中通常被忽略.sORF广泛存在于人类等多种生物的基因组中, ...
- 陈畅组和陈润生组合作揭示长链非编码 RNA调控细胞氧化还原及衰老新机制
细胞氧化还原反应是生命活动最基本的反应,细胞氧化还原调控广泛参与细胞信号转导及生理和病理过程,因此,揭示细胞氧化还原调控机制具有重要意义.目前对氧化还原调控机制的认识多为编码基因和蛋白,大量的非编码基 ...
- Nucleic Acids Res | 陈润生/何顺民团队发表非编码RNA相互作用数据库NPInter v5.0
非编码RNA对生物分子的调控作用,一直是RNA功能研究的前沿.在以往的研究中,非编码RNA被发现可以和蛋白质.RNA以及基因组相互作用,调控复杂生物过程.比如经典的长非编码RNA Xist可以和X染色 ...
- 操作系统学习笔记——北京大学陈向群老师课后及习题答案(1)
第1章 操作系统概述 1.(5分)下列关于操作系统的叙述中,哪一个是错误的? A. 操作系统管理着计算机系统中的各种资源 B. 操作系统应为用户提供良好的界面 C. 操作系统是计算机系统中的一个应用软 ...
- 操作系统学习笔记——北京大学陈向群老师课后及习题答案(2)
操作系统的运行环境 1.(5分)控制和状态寄存器用于控制处理器的操作,在某种特权级别下可以访问.修改.下列哪一个不是控制和状态寄存器 A. 程序计数器(PC)(错选) B. 指令寄存器(IR) C. ...
- 操作系统学习笔记——北京大学陈向群老师课后及习题答案(9)
9.文件系统(1) 作业状态 1.(5分)UNIX系统中,把输入输出设备看做是 A. 普通文件 B. 目录文件 C. 特殊文件 D. 索引文件 2.(5分)文件的逻辑结构是由下列哪一项决定的? A. ...
- 操作系统学习笔记——北京大学陈向群老师课后及习题答案(7)
7.存储模型-作业状态 1.(5分)为了保证CPU执行程序指令时能正确访问存储单元,需要将用户进程中的逻辑地址转换为运行时可由CPU直接寻址的物理地址,这一过程称为: A. 地址映射 B. 地址分配 ...
- 操作系统学习笔记——北京大学陈向群老师课后及习题答案(5)
5.同步机制(1) 1.(5分)多个进程并发执行时,各个进程应互斥进入其临界区,所谓临界区是指 A. 一段程序 B. 一段数据区 C. 一个缓冲区 D. 一种同步机制 2.(5分)下列哪一种场景问题只 ...
最新文章
- activiti5/6 系列之--BpmnModel使用
- 二叉树中第二小的节点
- 64位开源处理器Rocket该人士介绍
- Android之解剖网络请求框架Volley
- wxpython滑动面板_wxPython Panel面板的用法
- 贝叶斯概率分类参数估计中参数是什么
- 重磅开源 KSQL:用于 Apache Kafka 的流数据 SQL 引擎 2017.8.29
- unity 常用函数
- matlab指令vpa(j10),matlab中vpa函数
- 团队编程项目开发环境搭建过程
- django admin单例对象
- Spark创建临时视图
- Android 8.0 VDEX机制简介
- 迈普交换机中断计算机网络,迈普3100交换机配置命令大全
- 如何开会——高效会议八项原则
- 计算机上无线网络开关在哪里,笔记本无线网络开关在哪里
- sata port multiplier
- 叶胜超:币乎(KEY)---区块链内容平台中文第一社区!
- 二叉树遍历与java实现
- keypress,keydown,keyup的区别:
热门文章
- asp html5留言板,ASP.NET MVC 开发实例:简单留言板的开发
- linux open函数详解
- 记 * 恢复ext4硬盘的数据
- 无需重装软件,解决不满足升级要求问题,Windows10成功升级Windows11方案——以戴尔XPS15 9550 i7-6700HQ CPU为例
- 客户服务器与p2p文件分发,P2P大文件分发技术 | 点量软件
- MATLAB2016a+eeglab安装
- python切割音频文件_python3使用pydub切分音频文件
- chrome最新版本下载
- android模拟器GPS简单应用(一)
- 一信通短信接口对接_短信验证码接口轻松对接事项