需要具备的背景知识:
(1) 蛋白质结构文件读取
(2) Pytorch
(3) 自动编码机
(4) sklearn聚类

本文是模仿文章:Autoencoder-Based Detection of Dynamic Allostery Triggered by Ligand Binding Based on Molecular Dynamics的工作。作者是Yasushige Yonezawa。

一、文章分析

Yasushige Yonezawa提出使用自动编码机对MD 的结果进行分析,找出蛋白变构的方法。该方法通过自动编码机计算holo和apo蛋白在动力学模拟过程中残基对的距离矩阵扰动,根据残基对的扰动模式对残基对进行聚类,生成残基簇,最终找出残基簇中lead残基。
首先,分析一下该模型的构建过程。该模型的构建过程可以分为以下几步:

  1. 数据集的产生:MD Simulations of the PDZ2 Domain in Ligand Bound and -Unbound Forms. 分别对PDZ蛋白Ligand Bound和Unbound的两个结构分别进行分子动力学模拟两次,生成的数据集分别为opo1, opo2 和holo1, holo2,一共有四个数据集。MD模拟时长为200ns。待MD体系稳定以后,只取50~200ns,每隔0.1 ns怕一个快照(蛋白结构),所以一共有1500个蛋白结构文件(PDB文件)。所以每一个数据集都由1500个PDB文件组成。

  2. 计算蛋白中残基对在MD中的距离扰动:为蛋白中每两两残基在某一个快照中计算距离,因此,在opo1, opo2 和holo1, holo2任意一个数据集中,任一残基对是一个1500维的向量表示。这些向量将作为自动编码机的输入。

  3. 多层金字塔形自动编码器:构建如下图的自动编码机。分别使用opo1, opo2训练两个模型。80%的残基对数据作为训练集,20%的残基对作为测试集。Batch_side=100, 训练次数为30000次,使用早期停止法。

  4. 计算DIO: DIO(vector of the difference)是将holo数据集中的残基对数据矢量输入opo训练出来的模型,然后获得输出和输入之间的差别,这些差别就是DIO,分别编号为:opo1-holo1,opo2-holo1,opo2-holo1, opo2-holo2。DIO实际上代表的是Ligand对蛋白结构的影响。Opo数据集训练出来的模型学习的是opo蛋白结构在分子动力学模拟中的运动模式,但是holo经过该模型,其输出是按照opo模型的运动模式,之间的差距显然就是Ligand导致的。这些差距(DIO)就是找出Lead 残基的关键所在。

  5. 对残基对进行聚类,找出Lead残基:利用DIO进行层次聚类,文章中是分为7类。找出每一类中出现比例大于80%的残基,那么这些残基就是残基簇中的Lead残基。也就是在变构过程中处于重要地位的残基。下图为残基对聚类的结果。

二、文章复现

接下来就是复现这一片paper。但是由于我们没有PDZ这个蛋白,更没有PDZ蛋白的MD数据集结果。为了简便起见,这里直接使用了以前项目中的某个蛋白的MD结果作为数据集,当然,MD也没有opo做了两次,holo做了两次,只分别做了一次。也由于MD过程中,发生了一些小问题,导致数据集有一些问题,所以不一定能做出文献中的结果。这里仅仅是方法学上的实现,至于最终结果。。。

Paper的复现过程分为几步走:

2.1 数据的预处理

2.2 训练自编码模型

2.3 DIO的生成和聚类

2.4 Lead残基的提取与结果的可视化

接下来,将逐步实现该模型。

Paper再现:MD+AI自动编码机探测蛋白变构(一):文章分析相关推荐

  1. AI自动评审论文,CMU这个工具可行吗?

    视学算法报道 作者:魔王.杜伟 转载自公众号:机器之心 近年来,各大学术顶会的论文投稿量暴增,这使得论文评审的工作量大大增加.那么,有没有可能自动生成论文的评审结果呢?最近,CMU 研究者对此展开了探 ...

  2. 使用MD.ai标注医学图像及covid-19数据集标注

    本文档涵盖注册.推荐的浏览器设置.打开分配的案例和故障排除.了解使用 MD.ai 启动和运行所有深度学习项目的基础知识. 1.登录 打开浏览器:https://www.md.ai并单击Create A ...

  3. 法国科学家发布AI模型,阐释蛋白结构和功能及进化关系

    https://www.toutiao.com/a6671451084893979143/ 法国科学家最近发布了分析蛋白序列的AI工具,相关研究成果发表在权威杂志eLife (Learning pro ...

  4. Pytorch+LSTM+AI自动写诗实战

    文章目录 1.数据集和任务定义 2.读取数据集 3.数据预处理 4.数据制作 5.定义网络结构: 6.测试网络 7.可视化 8.总结 1.数据集和任务定义 本次采用的是唐诗数据集,一共有接近60000 ...

  5. 【重磅】吴恩达宣布 Drive.ai 自动驾驶汽车服务落地 理想就这样成了现实!

    来源: 网易智能 美国当地时间5月7日,硅谷无人车创业公司 Drive.ai 宣布将于2018年7月在德克萨斯州弗里斯科市提供自动驾驶汽车服务. 这或许会成为美国第一个真正落地的自动驾驶汽车载人服务, ...

  6. 自编码的matlab代码,深度学习自动编码机MATLAB实现

    深度学习自动编码机MATLAB实现 matlab 2020-11-30 下载地址 https://www.codedown123.com/52407.html 深度学习自动编码机MATLAB实现,包含 ...

  7. python自动抠头像图_Python实现AI自动抠图实例解析

    一.简介 抠图是用PS? 用魔棒和快速选择工具? 遇到复杂背景怎么办? 最近发现一个神奇的工具--Remove Image Background 它是基于Python.Ruby和深度学习技术开发,通过 ...

  8. AI自动评审了下Transformer论文

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  9. 自动编码机(Autodencoder)

    自动编码机(Autoencoder)属于非监督学习,不需要对训练样本进行标记.自动编码机(Autoencoder)由三层网络组成,其中输入层神经元数量与输出层神经元数量相等,中间层神经元数量少于输入层 ...

  10. AI自动剪辑生成视频探索实践

     点击上方"LiveVideoStack"关注我们 ▲扫描图中二维码或点击阅读原文▲了解音视频技术大会更多信息 // 编者按:随着短视频时代的到来,以短视频作为载体进行音乐推广具备 ...

最新文章

  1. PyTorch 1.5发布,与AWS联手推出TorchServe
  2. ConVirt 2.0.1中文汉化版
  3. leetcode第一题两数相加
  4. jquery-uploadifyv3.2.1 文件上传插件 学习
  5. python random库下载_Python---random库(随机数)
  6. Leecode刷题热题HOT100(9)——回文数
  7. arcgis合并tif影像_ARCGIS多种影像裁剪
  8. 微信小程序开发教程第五章:微信小程序名片夹详情页开发
  9. ubuntu-12.04.4-server安装
  10. Python 科学计算基础 (整理)
  11. 阮一峰ES6学习-Symbol
  12. 学历查询和专业代码查询
  13. android在线音乐播放器教程,简单实现Android本地音乐播放器
  14. c4d渲染测试软件,C4D常用的4大主流渲染器
  15. 求刷百度相关词的方法
  16. matlab画colormap
  17. Java位运算优化:位域、位图棋盘等
  18. ip网络广播系统服务器,IP网络广播服务器
  19. 鸭梨山大,格力战双11有何苦衷?
  20. 简单的注册表代码记录

热门文章

  1. WinForm开发(36)——WinForm开发微软官方最全综合详解指南(包括bug出现的可能原因分析及解决方法)
  2. 2021年计算机网络工程师真题,2021年计算机四级网络工程师题库完整版完整答案.doc...
  3. 3dsmax软件和maya软件各自的优劣势是什么?
  4. 解析新浪微博表情包的一套js代码
  5. SAS笔记#SAS中的SQL语言
  6. 漫画小程序支持流量主更新修复接口,自动采集资源,漫画源码漫画小程序源码简单即可发布
  7. EasyX画动态时钟
  8. axure html图标 图片大小,Axure 图标解决方案_html/css_WEB-ITnose
  9. 浏览器javascript 下载m3u8视频合成mp4
  10. 淘宝API开发(一) 简单的用TOPAPI来获取淘宝用户信息