基因序列分析,其实说白了就是核酸和蛋白质的序列分析,分析上使用的主要是计算机的算法理论和工具,但是也必须具有生物学的背景知识,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。

(一)核酸序列分析

1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对(代表算法:Needleman-Wunsch算法)和局部比对(代表算法:Smith-Waterman算法)两类。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。       

除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (http://www.ncbi.nlm.nih.gov/BLAST/)。

以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。

(1)BLAST和FASTA

FASTA(http://www.ebi.ac.uk/fasta33/)和BLAST(http://www.ncbi.nlm.nih.gov/BLAST/)是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTA和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。BLAST根据搜索序列和数据库的不同类型分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为常用,TBLASTN在搜索相似序列进行新基因预测时特别有用。 使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。

(2) Needle和Pairwise BLAST:其中Needle适用于蛋白质和DNA序列,而Pairwise BLAST仅适用于DNA序列

(3)相似性和同源性:必须指出,相似性(similarity)和同源性( homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小。经过比对,当相似性高于一定程度,可以推测序列可能是同源序列,具有一定同源性。

2、多序列比对和进化树

在研究生物问题时,常常需要同时对两个以上的序列进行比对,这就是多序列比对。多序列比对可用于研究一组相关基因或蛋白,推断基因的进化关系,还可用于发现一组功能或结构相关基因之间的共有模式(pattern)。最常用的多序列比对工具为ClustalW(http://www.ebi.ac.uk/clustalw/),多用于比较蛋白序列。

ClustalW用法:

(1)输入:序列以FastA格式输入。

(2)输出:除了以文本形式外,还可以通过JalView显示和编辑结果。此外,还可以另外使用GeneDoc(常见于文献)及DNAStar软件等显示结果。多序列比对的结果还用于进一步绘制进化树。

3、基因结构分析 根据基因的mRNA序列及基因组序列,可以进行基因结构的分析。推荐使用BLAST或BLAT(http://genome.ucsc.edu/cgi-bin/hgBlat?command=start)进行分析。由于真核生物转录后内含子将被剪切,因此将mRNA和基因组进行比对以后,会发现mRNA的每个外显子与基因组序列片断匹配,根据这些片段可以判断外显子的数目和大小。外显子和内含子具体边界的确定,可以参考GT/AG一致性规则。BLAT的结果直接显示外显子数目、大小及边界。

(二) 蛋白质序列分析

1、跨膜区预测

各个物种的膜蛋白的比例差别不大,约四分之一的人类已知蛋白为膜蛋白。由于膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构。因此,对膜蛋白的跨膜螺旋进行预测是生物信息学的重要应用。

推荐使用TMHMM软件(http://www.cbs.dtu.dk/services/TMHMM/)对蛋白进行跨膜预测。TMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采用隐马氏模型(Hidden Markov Models),对跨膜区及膜内外区进行整体的预测。TMHMM是目前最好的进行跨膜区预测的软件,它尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定一个蛋白是否为膜蛋白。所有跨膜区预测软件的准确性都不超过52%,但86%的跨膜区可以通过不同的软件进行正确预测。因此,综合分析不同的软件预测结果和疏水性图以获得更好的预测结果。

方法:输入待分析的蛋白序列即可。

2、信号肽预测

信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3和-1位为小而中性氨基酸。

推荐使用SignalP软件2.0版(http://www.cbs.dtu.dk/services/SignalP-2.0/)对PDCD5N端序列进行信号肽分析。SignalP2.0根据信号肽序列特征,采用神经网络方法或隐马氏模型方法,根据物种的不同,分别选择用真核和原核序列进行训练,对信号肽位置及切割位点进行预测。信号肽切割位点预测用Y-score maximum来判断,对是否分泌蛋白用mean S-score来判断:如果mean S-score大于0.5,则预测为分泌蛋白,存在信号肽,但II型跨膜蛋白的N端序列可能被错误预测为分泌蛋白的信号肽。

方法:输入待分析的蛋白序列,如为原核基因选择原核训练集,否则选择真核训练集。

3、亚细胞定位预测

亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞定位预测基于如下原理:(1)不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白。(2)蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。因此可以通过氨基酸组成进行亚细胞定位的预测。

推荐使用PSORT(http://psort.nibb.ac.jp/)II软件对PDCD5蛋白的细胞内定位进行预测。PSORT将动物蛋白质定位于10个细胞器:(1)细胞浆,(2)细胞骨架,(3)内质网,(4)胞外,(5)高尔基体,(6)溶酶体,(7)线粒体,(8)胞核,(9)过氧化物酶体(peroxisome)和(10)细胞膜。

基因序列分析(生物信息学论坛)相关推荐

  1. Mothur5进阶_Mothur扩增子基因序列分析_基于OTU或ASV的多样性指数分析

    本文主要讲解了使用Mothur软件对扩增子基因序列基于OTU或ASV进行多样性指数分析. 01文件名称的再处理 当比较早期和晚期样本时,最初的问题与这些样本的稳定性和群落结构的变化有关.组名是F或M( ...

  2. 2019/08/14_用于新基因的生物信息学分析 (转载)

    用于新基因的生物信息学分析     核酸序列的基本分析 运用DNAMAN软件分析核酸序列的分子质量.碱基组成和碱基分布.同时运用BioEdit(版本7.0.5.3)软件对基因做酶切谱分析.      ...

  3. Mothur6进阶_Mothur扩增子基因序列分析_基于系统型phylogeny的多样性指数分析

    本文主要讲解了使用Mothur软件对扩增子基因序列进行基于系统型phylogeny的多样性指数分析,并提供了所有过程输出文件. OTU和基于Phylotype的分析是分类方法,取决于binning过程 ...

  4. 生物信息学、系统生物学 期刊 会议

    生物信息学.系统生物学是交叉学科,可选择期刊比较广泛,这里只列举一些平时关注的刊物: -------------------------------------------- Nature Biote ...

  5. 基因数据分析主流软件与基因预测方法步骤-搬运工

    源自:http://www.bbioo.com/lifesciences/40-114214-1.html 1. 基因数目预测的主流软件 GENSCAN就是一个经典的基因预测软件.1996年由MIT的 ...

  6. 生物基础知识---CDS,基因,Matlab生物信息工具箱

    1.CDS(Sequence coding for aminoacids in protein)蛋白质编码区 2.每个基因中都有编码区与非编码区,其中真核生物编码区又含有外显子与内含子,但真核生物的基 ...

  7. VarCards网址变更: 人类重大疾病基因变异解读数据库及分析平台

    ⌈ 医见生信 ⌋ 是中南大学"医学生物信息学课题组"运营的公众号,本研究团队立足于帕金森病和孤独症为代表的神经精神类疾病,利用计算生物学.生物信息学和医学遗传学的方法探究疾病发生发 ...

  8. 中南大学湘雅医院李津臣课题组诚聘生物信息学相关多学科交叉人才

    ⌈ 医见生信 ⌋ 是中南大学"医学生物信息学课题组"运营的公众号,本研究团队立足于帕金森病和孤独症为代表的神经精神类疾病,利用计算生物学.生物信息学和医学遗传学的方法探究疾病发生发 ...

  9. 国内的生物信息学会议

    1. 中国计算机学会生物信息学会议(CBC) 每年会议由中国计算机学会(CCF)主办,CCF生物信息学专委会及一些学校承办.2020年在哈尔滨举行,东北林业大学承办,哈尔滨工业大学协办.大会围绕生物大 ...

最新文章

  1. html中连续点击某个标签会出现蓝色的解决方法
  2. 重新定位开放策略 保卫中国经济版图
  3. 吐槽知乎现任搜索引擎
  4. 数字化转型的研究方向
  5. dedeCMS 会员中心注册登陆页面 - 模板修改
  6. 二、源代码=程序集及程序集概念介绍
  7. Web 浏览器相关的一些概念
  8. zynq阅读文档之通过中断读GPIO输入的编程指导
  9. Mybatis 单独项目
  10. 【前沿】详细讲解Transformer新型神经网络在机器翻译中的应用
  11. 课题申报书范文_2018年课题立项申报书范文
  12. m 序列性质的简单证明
  13. ANSYS 有限元分析 坐标系/工作平面
  14. 单节1A锂电池充电芯片
  15. html怎么设置字体的透明度,CSS字体透明度怎么设置?
  16. java 控件 布局工具_JavaFX应用程序可视化布局工具(JavaFX Scene Builder)下载 v2.0
  17. Oracle动态性能视图学习之v$session_longops
  18. 安装显卡后计算机无法启动,Win10更新显卡驱动后无法开机进入系统的解决方法...
  19. 累次积分怎么计算_请问累次积分和多重积分的区别
  20. c语言 爱课程,哈工大8门资源共享课正式上线“爱课程”网站

热门文章

  1. 05: 思科防火墙基础 、 思科ASA防火墙应用
  2. 长沙理工大学第十二届ACM大赛 D 小M和天平
  3. VS2013 + Qt 配置指南
  4. 【剧本杀游戏】彼岸元素星-基于python的剧本杀游戏开发
  5. 湖南科技大学计算机学院刘红杨,湖南科技大学计算机科学与工程学院王晓亮教授指导本科生团队在机器翻译算法的准确性上取得新进展...
  6. 云服务器怎么安装声音驱动_关于阿里云服务器安装显卡驱动类型的
  7. 芯片组的相关概念描述
  8. (三)Chipset Config
  9. Python3 单线程爬虫 和 多线程爬虫 下载某站 古风头像,短短几分钟就3000多张
  10. javaweb JAVA JSP自行车租赁系统(租赁系统)自行车租赁 汽车租赁 电车租赁系统 租借系统