智源导读:在生物医学领域,将深度学习用于蛋白结构预测成为近年大热门。在6月3日智源大会的AI赋能生命健康与生物医药论坛上,北京大学教授马剑竹做了题为“结构性和功能性基因组学的机器学习算法”的报告,阐述了将人工智能技术用于蛋白质结构和功能预测的相关工作。

整理:肖健

讲者简介:马剑竹,现担任北京大学人工智能研究院副教授,此前曾任美国普渡大学生物化学系、计算机系助理教授。马博士是机器学习领域的计算机专家,主要研究科学、医学及卫生领域中数据带来的挑战。马博士曾发表多篇生物医学应用相关论文(收录于《Nature Methods》《Nature Cancer》 《Cell》《Nature Communications》 《PNAS》等),其论文、发言、海报及研究曾在RECOMB、ISMB等顶级会议中获奖。


近年来,从氨基酸序列预测蛋白质空间结构成为热点的研究。基于同源蛋白模板匹配预测空间结构,是主流的预测方法。与进化过程蛋白质序列变化相比,蛋白质空间结构的变化更具有保守性,因此存在多种蛋白质序列对应相似的空间结构。因此,提出一种蛋白质序列空间距离表示对于蛋白质空间结构预测非常重要。

RaptorX是首个将深度学习用于蛋白结构预测软件,曾在CASP12和CASP13中接触预测排名第一。RaptorX软件由马教授与伊利诺伊大学厄巴纳-香槟分校计算机科学系副教授彭健共同开发。

图(1)RaptorX软件的官方主页

目前已有的蛋白质数据库中有约17万的蛋白质结构,但实际只有约1000种蛋白结构类别,因此任意一种新的蛋白质,几乎都可以在数据库中找到与之类似结构的蛋白,所以可以用数据比对的方式,从数据库中找到一个或多个模板,进而在模板的基础上预测未知蛋白的结构。

然而,实际上序列比对是一件很难的事。有些蛋白质结构非常类似,但它们的序列是完全不一样的,所以简单地用字符串匹配的方式做比对是行不通的。这个现象背后蕴含着生物学原理:蛋白质的结构比序列更加保守,即序列变化时仍能维持基本的蛋白结构不变。如何将不同的蛋白序列联配(Protein Alignment),得到氨基酸序列的一一映射,这就是马教授和彭教授曾一同研究的问题。这一问题在今天仍有重要的意义,因为AlphaFold2中也使用的同源蛋白的信息,找同源蛋白的过程也使用了蛋白联配技术。

做两个蛋白质的联配可以用动态规划算法,填写动态规划表格,再回溯找到表格中的通路,也就是联配方式。但难点在于不知道某一个字母应当对应哪个字母,因此需要用监督学习为联配结果赋分。于是可以将已知结构的蛋白做堆叠,得到真实的联配方式,然后以最大似然作为优化目标,即让真实联配方式的分值最大化为目标来训练神经网络。这是一种基于格子的条件随机场方法(grid conditional random field),其中配分函数(Partition function)刚好能在多项式时间算出,因此可以对数似然函数做梯度下降。该论文“A conditional neural fields model for protein threading”发表在Bioinformatics上。

图(2)RaptorX背后基于深度学习预测蛋白质结构的算法

RaptorX背后的方法并没有触及“多种不同的蛋白质对应相似的空间结构”这一生物问题的固有性质,而是直接套用了机器学习算法。原有方法相当于是将现有的联配与真实的联配在每一节点作比较,相同则加分,不同则减分。但事实上,蛋白联配是两个几何体做堆叠,如果两个几何体错位得很少仍然可以认为它们结构相似,比如假设真实对应是1对1,2对2,3对3等,现有对应是1对2,2对3,3对4等,它们的结构看上去相差并不远;如果相差较远则联配得不好。

但原有方法不能捕捉这一信息,所以需要一种新的损失函数能够体现联配之间的几何差异。教授们想到一种精妙的方法,将现有的联配与真实的联配的距离用两种联配对应表格中路径围成的面积来度量,以面积最小为目标来训练神经网络。马剑竹教授的这项工作“PALM: Probabilistic Area Loss Minimization for Protein Sequence Alignment”发表在UAI上。

同时,马教授还抛出一个开放问题,如果要计算三个蛋白序列或多个的联配,马教授提供了一种初步的思路,仿照两序列联配问题,该情况下的联配需要以多维空间中的两条曲线围成的曲面的面积作为损失函数,同样以面积最小作为约束。

图(3)改进后的蛋白质结构预测算法

对于蛋白质功能预测问题,马教授提出了一种基于元学习的蛋白质功能预测方法。其中这种蛋白有很多族,每一族内的蛋白比较相似。现有的方法有两类,一种对每一族蛋白分别进行建模,一种把所有组都合在一起建模。前一种方法的问题是部分族的有标签数据很少,后一种方法会丢失族群间的区别。这在机器学习中是一种标准的多任务问题,这些任务间有关联性,又不太一样。利用元学习的思想,将每族的蛋白与短肽的结合作为一个任务,先对各任务做元学习模型,得到对不同族的蛋白非常敏感的表示,再将这一模型迁移到有标签数据很少的任务上。这项工作“Mitigating Data Scarcity in Protein Binding Prediction Using Meta-Learning”发表在RECOMB上。

图(4)基于元学习的蛋白质功能预测模型


扫码加入「AI赋能生命健康与生物医药」交流群,参与相关话题讨论

北大马剑竹 | 结构性和功能性基因组学的机器学习算法相关推荐

  1. 【机器学习基础】数学推导+纯Python实现机器学习算法24:HMM隐马尔可夫模型

    Python机器学习算法实现 Author:louwill Machine Learning Lab HMM(Hidden Markov Model)也就是隐马尔可夫模型,是一种由隐藏的马尔可夫链随机 ...

  2. python 隐马尔科夫_机器学习算法之——隐马尔可夫(Hidden Markov ModelsHMM)原理及Python实现...

    前言 上星期写了Kaggle竞赛的详细介绍及入门指导,但对于真正想要玩这个竞赛的伙伴,机器学习中的相关算法是必不可少的,即使是你不想获得名次和奖牌.那么,从本周开始,我将介绍在Kaggle比赛中的最基 ...

  3. 【机器学习】【隐马尔可夫模型-3】后向算法:算法详解+示例讲解+Python实现

    0.前排提示 csdn有些数学公式编辑不出来,所以本博用容易书写的表达式来表示专业数学公式,如: (1)  在本博客中用α<T>(i)来表示 (2)在本博客中用[i=1, N]∑来表示 注 ...

  4. 隐马尔科夫模型(前向后向算法、鲍姆-韦尔奇算法、维特比算法)

    隐马尔科夫模型(前向后向算法.鲍姆-韦尔奇算法.维特比算法) 概率图模型是一类用图来表达变量相关关系的概率模型.它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的变表是变量间的概 ...

  5. 机器学习算法 10 —— HMM模型(马尔科夫链、前向后向算法、维特比算法解码、hmmlearn)

    文章目录 系列文章 隐马尔科夫模型 HMM 1 马尔科夫链 1.1 简介 1.2 经典举例 2 HMM简介 2.1 简单案例 2.2 案例进阶 问题二解决 问题一解决 问题三解决 3 HMM模型基础 ...

  6. 深度学习在基因组学与机器学习在生物医学应用

    基因组学(genomics)是对生物体所有基因进行集体表征.定量研究及不同基因组比较研究的一门交叉生物学学科,基因组学的目的是对一个生物体所有基因进行集体表征和量化,并研究它们之间的相互关系及对生物体 ...

  7. 人工智能里的数学修炼 | 隐马尔可夫模型 : 维特比(Viterbi)算法解码隐藏状态序列

    人工智能里的数学修炼 | 概率图模型 : 隐马尔可夫模型 人工智能里的数学修炼 | 隐马尔可夫模型:前向后向算法 人工智能里的数学修炼 | 隐马尔可夫模型 : 维特比(Viterbi)算法解码隐藏状态 ...

  8. 快速学习Android开发知识点总结(磨砺营马剑威Android)

    2019独角兽企业重金招聘Python工程师标准>>> [威哥说]很多人在工作中不断的遇到瓶颈,想研究新的技术,却发现自己的基础不扎实,无法深入理解某一项技能的原理问题.这就需要大家 ...

  9. volley浅析(磨砺营马剑威Android)

    2019独角兽企业重金招聘Python工程师标准>>> [威哥说]Volley是Android平台上的网络通信库,能使网络通信更快,更简单,更健壮.Volley特别适合数据量不大但是 ...

最新文章

  1. 智源论坛 | 智能处理器探索(3月21日)
  2. **PHP foreach 如何判断为数组最后一个最高效?
  3. android 保存流媒体,Android实现使用流媒体播放远程mp3文件的方法
  4. java 通过反射得到命名空间_利用反射得到一个命名空间下的所有类,并调用?...
  5. mobile web页面调试方法
  6. HDU.1000 A + B Problem
  7. 用VS2008做博客¥(^_^)¥
  8. c语言gets,getc,C语言的getc()函数和gets()函数的使用对比
  9. DVWA系列之20 反射型XSS分析
  10. 运维实用篇-查看IP和端口
  11. 数组的最长递减子序列java_47.创新工场: 求一个数组的最长递减子序列 | 学步园...
  12. 用C语言编写贪吃蛇小游戏
  13. MODBUS调试工具 C#源码 包含MODBUS主站调试工具和MODBUS从站调试工具
  14. 腾讯悄悄地发布了Linux版QQ-附安装-卸载方法
  15. centos7镜像文件
  16. 计算机培训三下乡实践报告,大学生暑假三下乡社会实践报告优秀范文
  17. 经济学中的同比环比,负增长,正增长
  18. quartus 中无法选择USB-Blaster下载程序的问题。
  19. 菜鸟最初级网络安全常识
  20. 工作11年后一切归零

热门文章

  1. 用mendeley在word中插入文献_Mendeley在Word添加工具栏和插入和删除文献的方法 | 科研动力...
  2. grub2引导linux内核,一种基于grub2的linux系统启动bootloader的制作方法与流程
  3. 查处的数据如何乱序_老司机总结常用镜像方法,让镜像数据更加可靠
  4. linux amd显卡下载,下载:AMD显卡Linux催化剂驱动9.10版
  5. mysql 运行sql 编码_关于解决运行 sql 文件时, 找不到 MySQL 默认编码 utf8mb4 的问题...
  6. 【c语言】char类型变量分别以字符形式和整数形式输出
  7. 如何用java使用POI读取excel文件,创建excel文件,实现批量导出和导入
  8. 碧利医疗获数千万元Pre-A轮融资,盛鼎投资、旦恩资本投资
  9. Linux inode 之我见
  10. SpringMVC+MyBatis 事务管理一