Paper再现：MD+AI自动编码机探测蛋白变构(一):文章分析

需要具备的背景知识：
（1）蛋白质结构文件读取
（2） Pytorch
（3）自动编码机
（4） sklearn聚类

本文是模仿文章：Autoencoder-Based Detection of Dynamic Allostery Triggered by Ligand Binding Based on Molecular Dynamics的工作。作者是Yasushige Yonezawa。

一、文章分析

Yasushige Yonezawa提出使用自动编码机对MD 的结果进行分析，找出蛋白变构的方法。该方法通过自动编码机计算holo和apo蛋白在动力学模拟过程中残基对的距离矩阵扰动，根据残基对的扰动模式对残基对进行聚类，生成残基簇，最终找出残基簇中lead残基。
首先，分析一下该模型的构建过程。该模型的构建过程可以分为以下几步：

数据集的产生：MD Simulations of the PDZ2 Domain in Ligand Bound and -Unbound Forms. 分别对PDZ蛋白Ligand Bound和Unbound的两个结构分别进行分子动力学模拟两次，生成的数据集分别为opo1, opo2 和holo1, holo2，一共有四个数据集。MD模拟时长为200ns。待MD体系稳定以后，只取50~200ns，每隔0.1 ns怕一个快照（蛋白结构），所以一共有1500个蛋白结构文件（PDB文件）。所以每一个数据集都由1500个PDB文件组成。
计算蛋白中残基对在MD中的距离扰动：为蛋白中每两两残基在某一个快照中计算距离，因此，在opo1, opo2 和holo1, holo2任意一个数据集中，任一残基对是一个1500维的向量表示。这些向量将作为自动编码机的输入。
多层金字塔形自动编码器：构建如下图的自动编码机。分别使用opo1, opo2训练两个模型。80%的残基对数据作为训练集，20%的残基对作为测试集。Batch_side=100，训练次数为30000次，使用早期停止法。
计算DIO： DIO（vector of the difference）是将holo数据集中的残基对数据矢量输入opo训练出来的模型，然后获得输出和输入之间的差别，这些差别就是DIO，分别编号为：opo1-holo1，opo2-holo1，opo2-holo1, opo2-holo2。DIO实际上代表的是Ligand对蛋白结构的影响。Opo数据集训练出来的模型学习的是opo蛋白结构在分子动力学模拟中的运动模式，但是holo经过该模型，其输出是按照opo模型的运动模式，之间的差距显然就是Ligand导致的。这些差距（DIO）就是找出Lead 残基的关键所在。
对残基对进行聚类，找出Lead残基：利用DIO进行层次聚类，文章中是分为7类。找出每一类中出现比例大于80%的残基，那么这些残基就是残基簇中的Lead残基。也就是在变构过程中处于重要地位的残基。下图为残基对聚类的结果。

二、文章复现

接下来就是复现这一片paper。但是由于我们没有PDZ这个蛋白，更没有PDZ蛋白的MD数据集结果。为了简便起见，这里直接使用了以前项目中的某个蛋白的MD结果作为数据集，当然，MD也没有opo做了两次，holo做了两次，只分别做了一次。也由于MD过程中，发生了一些小问题，导致数据集有一些问题，所以不一定能做出文献中的结果。这里仅仅是方法学上的实现，至于最终结果。。。

Paper的复现过程分为几步走：

2.1 数据的预处理

2.2 训练自编码模型

2.3 DIO的生成和聚类

2.4 Lead残基的提取与结果的可视化

接下来，将逐步实现该模型。