蛋白质结构预测

  • 写在前面
  • 一、what is embedding?
  • 二、基础知识
    • 1.蛋白质结构
    • 2.MSA(Multiple Sequence Alignment)
  • 三、研究蛋白质结构的重要性
    • 1.分析蛋白功能
    • 2.制药需求
    • 3.节约大量制药资金和时间
    • 4.进一步了解生命体结构和历史。
  • 四、AlphaFold1
    • 1.分析蛋白功能
  • 五、AlphaFold2
    • 1.算法实现

写在前面

开源链接: https://github.com/deepmind/alphafold
论文链接:https://www.nature.com/articles/s41586-021-03819-2_reference.pdf


一、what is embedding?

embedding在深度学习领域的最初切入点是manifold hypothesis(流形假设):自然的原始数据是低纬的流形嵌入于(embedding into)原始数据所在的高维空间(比如一个三维球体上的每一个点都可以用二维经纬度来表示)。在深度学习中,embedding是将高纬的原始数据(图像,句子)映射到低维流形(比如映射为一个表征向量)并使其变得可分。

二、基础知识

1.蛋白质结构

蛋白质预测任务的定义:输入氨基酸序列,预测其三维结构坐标(即蛋白质中每个原子的三维坐标)。碳基生物中的NH2-CH-COOH是固定的,而R不固定,常见的可以组成生命体的R有20种,所以可以简单将他们当作一个21个词的词典做去做embedding(其余不可组成生命的R统一记作UNK。

氨基酸的一级结构:氨基酸的顺序
氨基酸的二级结构:折叠后规则的片段(比如周期性结构构象,肽键的alpha螺旋上升,通过氢键形成的beta折叠等)
氨基酸的三级结构:完整的三维坐标
氨基酸的四级结构:两个以上的蛋白质通过分子对接形成的复杂结构。

2.MSA(Multiple Sequence Alignment)

将相同的或相似的氨基酸序列对齐,进行序列对比,对相似程度进行打分。

可以通过补空位,左右移动位置等方式,使得匹配的全剧得分达到最高。
MSA的目的是通过共进化分析找到保守区域和其他特征。保守区域的突变往往影响蛋白质的功能而影响生物体的存活。

三、研究蛋白质结构的重要性

1.分析蛋白功能

生物的基因通过表达为蛋白质等生物分子来进行各种生命活动。分析预测蛋白质的结构可以帮助我们了解其活性区间和靶点。

2.制药需求

新药的研制流程包括,首先确定病的成因靶点,即哪个蛋白质/哪个基因出了问题,需要去抑制这个靶点还是去激活这个靶点。然后是针对靶点进行对应小分子药物的设计,比如模拟体内的小分子再修改其功能,修改已有相似药物的功能,根据靶点的三维结构去设计对应结构可以结合上的小分子,或者对已知可合成的小分子进行高通量筛选。之后是对这一步中所有可能的小分子进行缩小范围,比如判断其毒性,跨模型,在体内会残留多久,会不会对其他器官/蛋白质产生损害等等。

3.节约大量制药资金和时间

AlphaFold2的精度可以达到和冷冻电镜精度相似。

4.进一步了解生命体结构和历史。

MSA中,同源的蛋白质的氨基酸有多大差异,就往往代表他们从同一个祖先分离出来之后独立进化了多久,我们可以分析氨基酸序列来追溯进化的历史,找到那些还未被发现的共同祖先;序列建模出三维结构,我们进一步可以建模病毒(大多病毒就是DNA/RNA外面罩一个蛋白质壳子)。

四、AlphaFold1

1.分析蛋白功能

输入MSA feature (feature为传统算法得出的已知的feature),输出氨基酸两两间的距离。

五、AlphaFold2

1.算法实现


evoformer:输入MSA,已知的氨基酸序列,输出MSA信息和pairwise features
(残基对关系)
structure module:去掉MSA中的其他氨基酸序列,只保留目标序列,输入pairwise features,计算更新backbone frames(碳、氧、氮的链,即骨架链),预测所有氨基酸的方位和距离,肽键的长度,氨基酸内部的扭转角等等。

Alpha Fold 2相关推荐

  1. Alpha fold: 人工智能在蛋白质结构预测上跑赢人类的启示

    来自孙卫涛科学网博客 2020年12月,Alpha Fold2在CASP14上 获得了惊人的进步,其蛋白质结构预测的能力已经达到了与实验方法相媲美的程度,国内外该领域的专家学者都为之惊叹,同时也都感受 ...

  2. 图灵奖得主杨立昆:AI+时代,未来将会如何被改变

    来源:杨立昆<科学之路:人,机器与未来> 编辑:蒲蒲 人工智能(AI)近年来的发展可以说包罗万象,几乎涵盖了所有与机器智能化相关的内容.无论是机器人.冰箱.汽车还是软件应用,只要你想让它们 ...

  3. DARPA新局长维多利亚·科尔曼展望未来发展

    来源:空天防务观察 2020年11月20日,美空军协会<空军杂志>网站报道称,在入主美国防部国防高级研究计划局(DARPA)之前,新任局长维多利亚·科尔曼(Victoria Coleman ...

  4. AlphaFold2开源了,不是土豪也不会编程的你怎么蹭一波?

    2020年,AlphaFold2在CASP14蛋白质结构预测关键评估大赛中夺得透明,其预测的大部分结构达到了空前的准确度,不仅与实验方法不相上下,还远超解析新蛋白质结构的其他方法. 经过2个月的审稿, ...

  5. 《人工智能如何走向新阶段》大家谈(跟帖,续)

    编者按:由中国开源软件推进联盟名誉主席陆首群发起的<评人工智能如何走向新阶段>讨论引起的广泛议论,观点有深有浅,希望其中有思考价值的内容会推进和启发人工智能的新突破.讨论内容已正式上线CS ...

  6. AlphaGo之父戴密斯·哈萨比斯:是天才,也是生活里的普通人

    来源:砺石商业评论(libusiness)丨 文:高冬梅 数据猿官网 | www.datayuan.cn 今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中 ...

  7. 基于AI的自动化处理

    采用自动化技术不仅可以把人从繁重的体力劳动.部分脑力劳动以及恶劣.危险的工作环境中解放出来,而且能扩展人的器官功能,极大地提高劳动生产率,增强人类认识世界和改造世界的能力. ​ 一.游戏娱乐 技术思想 ...

  8. 院士邬贺铨:人工智能的魅力是它永远在路上

    关注网易智能,聚焦AI大事件,读懂下一个大时代! [网易智能讯 1月5日消息]中国日报网与网易传媒共同举办的2019影响力峰会在北京召开,首届影响力峰会的主题为"预见未来".会上, ...

  9. 福布斯2020年度AI大奖

    新年伊始,<福布斯>2021年1月4日公布2020年的人工智能大奖. 人工智能技术在2020年实现了指数级飞跃.无人驾驶汽车现在正逐渐成为主流,而机器学习的进步正在改变我们编写代码和发现药 ...

  10. AI-蛋白质-结构预测-2020:AlphaFold【输入:氨基酸序列】【输出:结构的性质(氨基酸之间两两的距离分布,氨基酸链的夹角分布)】【根据预测的性质构建约束,从而求解出拓扑结构】

    注意:这是关于AlphaFold的算法详细解析,而不是AlphaFold2的 注意:带斜体句子的是个人推测,不确定是否和论文对应. 作为一个计算机专业的算法从业人员,一直对AlphaFold[1]的算 ...

最新文章

  1. 【干货】2020史上最全自动驾驶资源大合集!
  2. 035-pgrep命令
  3. 什么叫侧面指纹识别_前面侧面还是背面?手机指纹识别放哪儿合适
  4. 华为企业互动社区云计算板块
  5. Mac下查看Git的安装目录
  6. Ubuntu18.04关闭ibus-daemon自启动
  7. 解决MacOS 下载的文件名字乱码问题
  8. 速达财务管理软件使用方法
  9. 常见通信RF指标的内在和意义
  10. 自己做量化交易软件(36)小白量化实战9--小白量化回测面板设计
  11. 北邮机试 打牌——破除固化思维,连续与不连续
  12. 大理古城“八戒”“悟空”与游客互殴 警方已介入
  13. 微型计算机 输出设备,微型计算机中的输入输出设备各有哪些?请分别列出来。...
  14. JAVA并发编程的书籍及资料
  15. 软件工程—团队作业1(三人行)
  16. 团队作业-Beta冲刺(3)
  17. 使用信用卡 要避开这些陷阱
  18. [Android源码分析]L2CAP的bind分析以及psm和cid的介绍和实现
  19. 围住一只猫猫需要几步?【多猫预警】
  20. 相乘函数计算机表示符号,各种乘法的表示符号

热门文章

  1. 双线服务器托管有哪些优势?
  2. 通信行业名词解释ID、MD、HW、SW
  3. vue+ckplayer+rtmp
  4. 用PS怎么画虚线圆?
  5. JAVA大写金额转小写金额过程
  6. 手游实时阴影方案之Projector Shadow
  7. android 类似苹果底部弹框,Android 仿苹果底部弹出Dialog
  8. Python 【问题描述】按照世卫组织的标准: 男性:(身高cm-80)×70%=标准体重 女性:(身高cm-70)×60%=标准体重 标准体重正负10%为正常体重(含10%) 标准体重正负1
  9. Unix时间戳转北京时间 UTC时间转北京时间 C代码实现
  10. 应用Scratchbox构建基于CF卡的嵌入式Linux系统