有什么特征可以帮助我们来区分导致功能和表型变化的变异和其他变异,然后我们如何综合特征来做出一个预测模型?


表型或功能的改变(phenotypical/functional effect)
a,个体表型上的体现(导致疾病的或不导致疾病的)
b,演化上的概念(它是不是会影响这个人的适应性,deleterious,还是说它对人的 这个 适应性没有影响,即neutral)
c,特征(比如头发,身高)
……
……
一般来说,蛋白序列的改变,它就更有可能结构和功能的改变,就更有可能在细胞水平的改变,可能最终造成人的各个的表现的改变,但所有的这些都不是绝对的,都是统计的一个概念

我们如何预测非同义突变对功能表现的影响?

一、简介

SIFT是基于保守性的一个算法,这个方法是2001年由Pauline和Henikoff发表的,SIFT和BLOSUM(作者是Hennikoff)作者是一个课题组,虽然替代矩阵可以评估两个氨基酸的相似性和可替代性,但是其实在不同的蛋白,不同的位点,它对氨基酸替代的容忍程度是不一样的,所以它后来就做了一个基于同源蛋白每一个位点上的氨基酸保守性的评估,有一些位点,它就是超级保守,在所有的物种中都没有看到过其他的任何别的氨基酸,那你如果在一个个体中看到那个位点有一个变异,哪怕它不是很严重的一个变异,但可能在那个位点,它就是严重的,还有一些位点呢,就在不同物种的同源蛋白中,你看他什么氨基酸都可能出现。(说了好绕口啊,其实就是保守性嘛)
SIFT基于一个重要位点它应该在一个物种中的同源蛋白中应该是比较保守的,如果在这些位点上发生了突变,那这些突变更有可能会导致个体的适应性的下降。
第一步:把可能的同源蛋白先找出来,这就是一个数据库搜索,也就是BLAST(PSI-blast是BLAST的一个变种,比BLAST更好一点)做的事情。
第二步:只挑那些相似度比较高的,那更有可能在功能上仍然一致的序列来进行后续的比对,它挑的是在比对上的这些区间要有90%的一致性。
第三部:然后做多序列比对

你可以看到有些位点就是完全保守的,有些位点会有一些变化,而有的一些位点变化比较多
第四步 根据每一个位点,你所看到的氨基酸的分布就可以算一个概率,基于这个概率,他得到最后一个值,一个数值的预测值,如果这个SCORE分数小于0.05,它就预测它是deleterious,如果是大于0.05,它就是中性的,不会造成功能和表现的改变
这个是可以通过软件实现的,应该是傻瓜式的操作不,06年他们发表一个文章,假阴性(False Negative rate)是31%,即31%影响功能和表型的变异被它预测了不影响,False Positive(假阳性),预测出来是影响表型功能其实是不影响的,Coverage,所有这些同义突变里,有60%是它可以用来做预测的。
当然啦,这个准确度还是不太尽人意的。那么我们怎样地应一个准确度呢?
首先,你希望预测的是什么?你希望真正知道的就是这样的变异是不是真的影响表型,Positive就是说的确影响表型,Negative就是不影响表型
我们要有模中实验或者计算的策略做一个评估,所有的实验的结果,或者预测的结果。下面的图你一看就懂了,有点点像博弈论中的矩阵图


PolyPhen同时结合序列和结果上的信息,主要的假设就是说有一些氨基酸的改变可能会影响蛋白的折叠,影响蛋白的的相互作用区间,影响它的稳定性 ,而蛋白结构如果有改变,那蛋白的功能就更可能会发生改变,所以它整合了序列和三维结构的一些特征

第一步 跟SIFT相似,先做一个多序列比对,即把同源蛋白,功能一样的蛋白做一个多序列比对

第二步 然后找到这个蛋白的三维结构,或者这个三维结构没有,但是有一个和你这个蛋白序列比较相类似的另外一个蛋白结构有,那你可以做一个同源建模,来预测它的三维结构

第三步 有了这个结构呢,PolyPhen就开始来算,你的这个看到的变异位点,它在结构上有什么特征,比如它是不是位于一个二硫键,因为二硫键对结构带来比较大的影响,它是不是处于一个位点呢,是不是处于一个重要的活性位点呢,它是不是出于跨膜区呢,跨膜区的变异经常会对结构和功能造成比较大的影响,它是不是出于信号肽的区域呢等等,这都是它评估的一些特征。

第四步 它也评估这个位点所在的二级结构是是什么?它是在蛋白的表面。还是在蛋白的内部,它有没有影响到它能形成的氢键的数目的改变等等。最后它做判断就是用一个所谓的rule-based,基于经验的
它的好处是在有三维结构的时候,还是比较好的,但是,没有三维结构,那它方法就用不了,也只能用在这个序列的信息,并且它的这些规则是完全基于经验的,那你的经验是对还是不对呢?

在2010年,他们课题组又开发了PolyPhen2这个版本:

  1. 增加了更多用来做预测的特征;
  2. 改成了用机器学习的一个方法,就是一个叫Naive Bayes的一种极其学习方法,这个算法的评估比原来基于经验的方法准确度是有很高的提高。

转载于:https://www.cnblogs.com/think-and-do/p/7147599.html

基于保守性和规则性的预测方法SIFT和PolyPhen相关推荐

  1. MDIPA:基于非负矩阵分解的MicroRNA-药物相互作用预测方法

    MDIPA:基于非负矩阵分解的MicroRNA-药物相互作用预测方法 摘要 一.简介 二.方法 2.1 数据集 2.2 鉴定-药物相互作用 2.3 microRNA与药物的邻域信息 2.4 非负矩阵分 ...

  2. matlab血糖预测,一种基于VMD-PACF-BP模型的动态血糖在线预测方法与流程

    本发明属于血糖预测技术领域,尤其涉及一种基于VMD-PACF-BP模型的动态血糖在线预测方法. 背景技术: 目前,中国患有糖尿病人数已成为在世界上拥有糖尿病患者最多的国家.为了降低糖尿病患者长期处于高 ...

  3. 基于多任务学习的快件送达时间预测方法

    1.文章信息 文章题目为<基于多任务学习的快件送达时间预测方法>,发表在计算机工程期刊上的一篇有关多任务学习预测的文章. 2.摘要 快件送达时间预测是物流领域中一项至关重要的服务.准确地预 ...

  4. 【寿命预测】基于DLSTM网络的机械剩余使用寿命预测方法

    数据驱动的RUL 之前方法的不足: 1.没有充分考虑各传感器采集的信息与机械剩余寿命之间的相关性 2.由于复杂系统运行过程中产生的信号噪声大.过维数多.非线性强,深度学习算法剩余有用寿命预测精度较低 ...

  5. 基于 CNN-GRU 的菇房多点温湿度预测方法研究 学习记录

    本篇文章主要为学习其模型思想. 引言 卷积神经网络( CNN) 作为在图像处理.计算机视觉等领域被广泛应用的模型,其特殊的网络结构通过共享权重的特性可以很好地处理高维稀疏特征,对非时序特征的空间结构关 ...

  6. 基于网格搜索优化支持向量机的负荷预测方法

    支持向量机(Support Vector Machine,SVM)最先由Cortes和Vapnik提出,它是一种有监督的模式识别方法.它的主要思想是建立一个分类决策面.SVM利用核函数将数据映射到高维 ...

  7. Trajectron++| 生成性的多智能体轨迹预测方法

    作者 | 浅笑  编辑 | 汽车人 原文链接:https://zhuanlan.zhihu.com/p/513091095 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干 ...

  8. 预测性分析及常用预测方法

    预测性分析及常用的预测方法 预测的目的 数据分析最重要的目的就是从数据中寻找规律,找到能够指导我们未来实践的原则和方法,是产生智慧的主要途径.所以预测分析是数据分析的终极目的.虽然数据分析承担了很多功 ...

  9. 基于张量的多元多阶马尔科夫多模态预测方法

      本博客整理自研读的论文,文末会附上出处. 基于张量的多元多阶马尔科夫多模态预测方法 一.问题背景 二.多元多阶马尔科夫模型 1.张量连接和张量统一乘 2.多元多阶马尔科夫转移模型 3.多元多阶马尔 ...

最新文章

  1. Latex使用技巧01:改变数学公式字体的颜色
  2. 列联表相关测量--φ列相关系数
  3. EnumMap的用法和源码解析
  4. android ART编译预优化
  5. c语言变长数组_2018级C语言大作业 - 祖玛
  6. 【渝粤教育】国家开放大学2019年春季 4有机合成单元反应 参考试题
  7. 区间覆盖全部类型及部分精选习题汇总详解(贪心策略)
  8. Musical Theme POJ - 1743(后缀数组+二分)
  9. C语言之字符串探究(七):atoi、itoa——整型数字和字符串的相互转换
  10. hive 配置用户名_Hive的安装及配置
  11. Scrapyd发布爬虫的工具
  12. 计算机组成原理第五版(白中英)第八章输入输出系统 习题
  13. Snapchat面试题:移除K位
  14. vue02(脚手架,部署,helloworld)
  15. c语言中ctod语句的作用,CTOD(c语言ctod函数)
  16. Couldn‘t store trigger ‘‘ for ‘‘ job:Couldn‘t retrieve job because the BLOB couldn‘t be deserialized
  17. 读书:冯唐的《金线》
  18. Linux下在文件内部指定行(首行、末尾行等)插入内容
  19. xxl-job项目的默认的用户名密码
  20. 圆孔衍射夫琅禾费衍射matlab仿真

热门文章

  1. windows日志分析-Log Parser等工具使用
  2. 一款兼容双系统、为代码而生的机械键盘--Keychron K3
  3. 李开复写给中国学生家长的信
  4. CS5463 DP转HDMI8K30Hz转换芯片规格书|CS5466 typec转HDMI8K30Hz (4K144Hz)转换芯片规格书
  5. 循序渐进全球化 镜像识别
  6. 全志h3通用固件_全志H3固件解包打包方法
  7. JAVA事务回滚的使用方法
  8. 10 23 周总结+一道奇妙数论
  9. 元宇宙创造大势所趋,一切皆有可能
  10. java绘制图表控件_画图控件 Chart Control -Java架构师必看