1. 摘要

确定药物-靶标相互作用(DTIs)是药物发现和药物重新定位的重要步骤。为了大大降低实验成本，蓬勃发展的机器学习被应用到这个领域，并发展了许多计算方法，特别是二分类方法。然而，目前的方法在性能上还有很大的改进空间。多标签学习可以减少二分类学习所面临的困难，并且具有很高的预测性能，目前还没有得到广泛的探索。它面临的关键挑战是指数大小的输出空间。本篇文章引入DTIs预测的社区检测方法DTI-MLCD来促进多标签分类。此外本文更新了2008年提出并至今仍在使用的黄金标准数据集。本文提出的DTI-MLCD方法在更新前后对黄金标准数据集进行了测试，结果表明该方法优于其他经典机器学习方法和其他基准测试方法，验证了该方法的有效性。本研究的数据和代码可以在https://github.com/a96123155/DTI-MLCD找到。

2. 介绍

对于药物开发而言，药物发现(即发现潜在新药)和药物重新定位(即获得具有新疗效的老药)是两项成本高昂的重要策略，而预测DTIs是实现这两项策略的重要一步。近年来，许多研究应用流行的机器学习技术来实现智能医疗，在一定程度上加快了药物开发的进程。对于DTIs预测，使用机器学习技术不仅可以缩小实验研究的实验范围，而且可以对实验研究起到指导作用。

本文提出了DTIs预测的多标签学习与社区检测方法(DTI-MLCD)，并在4个原始和更新的黄金标准数据集上进行了测试。提出的DTI-MLCD算法首先使用社区检测算法将目标空间划分为多个子空间，然后在每个子空间上应用多标签学习，最后进行DTIs预测。

3. 材料和方法

3.1 问题描述

本研究将DTIs预测问题分为两个子任务:(a)药物发现，预测新药，命名为TD;(b)药物重新定位，预测新的靶点，命名为TT。这两个任务被认为是多标签分类问题，如下所述。

对于任务T_D，假设X _D=R^d和 Y_T = {y₁,y₂,…, y_p}分别表示d维药物实例空间和具有p个可能靶标的标签空间。这个任务是从多标签训练集D = {(x~D, i_，yT, i~) |1≤i≤m}中学习一个函数f: X _D→2Y^T，其中m为样本数。对于每个样本(x_D,i,y_T,i)， x_D,i∈X_D，它是d维特征向量，y_T,i∈Y_T是与x_D,i相关的标签集。药物测试集的实例,多标签分类器f()⋅预测正确的标签。任务T_T可以通过类比来定义。

3.2 数据集

Yamnishi_08源自KEGG BRITE、BRENDA、SuperTarget和DrugBank数据库。它由四个DTI数据集组成。这些数据集根据蛋白靶点的不同而不同，分别是核受体(NR)、g蛋白偶联受体(GPCR)、离子通道(IC)和酶(E)。为了更新这些数据集，使用KEGG BRITE、UniProt和DrugBank数据库收集新药物、新靶点和新DTIs。该步骤分为两个部分:数据集成和数据清理。通过网络爬虫技术实现数据集成。首先从KEGG BRITE数据库中获取4类靶点对应的DTI数据，并与Yamanishi_08合并。然后，使用UniProt数据库作为KEGG BRITE和DrugBank的连接数据库，对上一步得到的每个靶点搜索DrugBank数据库，添加KEGG BRITE和Yamanishi_08中没有的药物和相应的DTIs。其次，逐一搜索所有已知药物，最大化现有药物和靶点的DTI完整性。在得到整合后的数据后，删除了无用的、无效的、多余的数据，包括非小分子药物、混合药物、相同或未知结构的药物，以及结构端基未知的药物。更新数据集中的所有药物均为已批准的药物。表1显示了原始黄金标准数据集和新更新的四个数据集的一些统计信息。

使用Yamanishi et al.编译的四组数据集作为基准来评价所提出的DTI- CDF方法在DTI预测中的性能。这四个数据集根据药物的靶蛋白类型进行分离和命名:酶(E)、离子通道(IC)、g蛋白偶联受体(GPCR)和核受体(NR)。为了更实际地模拟，考虑这四个数据集中DTIs的整个空间。已知的DTIs被认为是阳性样本，阴性数据包含所有未知的或不存在的DTIs。值得注意的是，正样本的数量远远小于负样本的数量。因此，这四个数据集严重不平衡，如表1所示。

3.3 特征构造

3.3.1 药物表示

许多特征可以用于描述药物，一般可分为两类:分子描述符(MDs)和分子指纹(MFs)。为了探索最适合本研究的药物表示，本文使用DTI预测中常用的一些开源工具来生成MDs和MFs。对于不同软件生成的MDs或MFs，本研究将其视为不同的药物表征。本研究使用的工具有CDK、Pybel、RDKit和PaDEL。由上述工具生成的MDs称为MD_CDK、MD_PYB、MD_RDK和MD_PAD。它们的大小分别为275、24、196和1875。此外，将这四种类型的MDs组合为一种新的MDs，称为MD_MER。目前，MFs通常分为三类:(a)基于拓扑路径的指纹。(b)拓扑圆形指纹;©基于子结构密钥的指纹。除了MDs和MF之外，还使用了受word2vecm启发的特性(W2V)，它从drug SMILES中提取单词信息。

进一步，将上述三种特征进行特征组合，因为这三种特征之间的互补性可能有助于提高性能。在这个过程中，融合特征选择，得到干净、互补性强、冗余少的组合特征。

3.3.2 靶点表示

本研究使用了DTIs预测研究中常用的三种目标序列衍生表示法。第一个是Composition, Transition, and Distribution (CTD)，用PROFEAT web server获得的504维特征向量表示。第二种是PROFEAT生成的1437个默认蛋白质描述符，名为PRO。除CTD外，还包括氨基酸组成、二肽组成、自相关、准序列、两亲性伪氨基酸组成和氨基酸总性质。第三种是蛋白质结构域指纹(PDF)，它是从PFAM v31.0数据库中提取的。对于不同的数据集，提取了不同数量的域。NR、GPCR、IC和E中目标的特征向量维数分别为30、61、1404和2182。

3.4 方法

传统的有监督学习可以看作是多标签学习的退化版本，因为每个样本都被限制为只有一个单一的标签。然而，多标签学习的普遍性使得算法的设计更加困难。指数大小的输出空间是学习的核心问题，即m个标签有2^m个可能的标签集。利用标签相关性或执行标签空间划分可以帮助解决这个问题。为此，本研究运用社交网络中的社区检测方法对标签空间进行划分。然后，每个划分的标签子空间对应一个多标签学习子问题，并将多个多标签分类器连接起来覆盖整个标签空间。基于随机森林的简单性、并行性和优越的性能等特点，应用的基本学习器是随机森林。在本节中，将介绍多标签学习和社区检测的典型算法。所提出的DTI-MLCD方法的执行步骤如图1所示。

3.4.1 多标签学习算法

多标签分类学习算法在过去10年经历了一次大爆炸。下面是一个简单的分类。

第一类是自适应方法，通过对已有算法进行数据拟合，直接对多标签数据进行处理。代表性算法是多标签k-最近邻(Multi-Label k-Nearest Neighbor, MLkNN)[93]。MLkNN是一种基于传统k近邻的惰性学习方法。目前广泛应用于多标签分类预测任务中，并取得了令人满意的结果。第二类是问题转换方法，它通过将数据拟合到已有的算法中，将多标签学习问题转化为另一种学习技术。二值相关性(Binary Relevance, BR)、分类器链(Classifier Chains, CC)和标签Powerset (Label Powerset, LP)是这类算法的代表。BR将多标签学习问题转化为多个独立的二值分类问题，其中一个二值分类器对应一个标签。该方法假设标签是相互独立的，每个分类器只能识别与一个标签相关的特征，不能识别与所有标签相关的特征。因此，在现实中，它在许多领域都是无效的，这也是BR的局限性。基于BR提出了CC，并考虑了标签相关性。它将多标签学习问题转化为一系列二值分类问题。其主要思想是将之前所有分类器的标签添加到下一个训练集的特征向量中，并传递给下一个分类器。显然，标签的顺序对预测结果有很大的影响。然而，分类器在分类器链中的顺序总是随机的。与BR和CC不同，LP将多标签学习任务转换为多类或单标签分类任务。换句话说，LP对标签的联合分布进行了建模。它将多标签训练集中的每个标签子集作为一个多类别任务的一个类别，预测将是这些子集之一。LP虽然简单，但存在两个不切实际的问题，容易导致过拟合。一个是不完备。它只能预测训练集中出现的标签集，而不能预测其他的标签集。另一个是低效率。随着标签数量的增加，由于标签子集数量的增加，以及每个类或子集的样本高度不平衡，可能会面临较高的复杂性。

由于文章在服务器上，全文内容详见：
http://bbit.vip/service/main.php?version=1&type=article&id=89

原论文名称：Predicting drug-target interactions using multi-label learning with community detection method (DTI-MLCD)

带有社区检测算法的多标签学习方法预测药物靶点相互作用（DTI-MLCD）相关推荐

如何计算图论中的模块化modularity指标，图论中的社区检测算法——Louvain community
图论中的社区检测算法--Louvain community 前言模块化指标介绍数学定义 Matlab代码实现使用实例 community_louvain函数参考文献前言在过去的十年中,人们 ...
重叠社区检测基础算法
1.思维导图 2.算法详解 1)CPM算法 (1)算法思想假设社区由完全连接的子图的重叠集(团)构成,并通过搜索相邻的团来检测社区. 首先识别网络中所有大小为K的团,一旦这些被识别出来,就会构建一个 ...
fastunfolding算法_社区发现算法综述—part1
目前我能在arxiv上找到的最新的关于社区发现算法系列的综述文了. 正文从这里开始: 2.2 社区发现现代网络在规模.多样性和复杂性上呈指数增长. 由于网络的变化,各种各样呈现出网络结构的不同类型的 ...
NLP--社区检测算法(Community Detection)总结【原理】
文章目录文章目录社区检测(Community Detection) 社区社区检测社区检测与聚类的对比分析鲁汶算法(Louvain ) 莱顿社区检测(Leiden) 标签传播算法(Label ...
社区发现算法原理与louvain源码解析
前言社区发现(community detection),或者社区切分,是一类图聚类算法,它主要作用是将图数据划分为不同的社区,社区内的节点都是连接紧密或者相似的,而社区与社区之间的节点连接则是稀疏的 ...
PyTorch图神经网络实践（七）社区检测
文章目录前言组合优化社区检测端到端的学习与优化作者介绍核心思想技术手段方法创新代码复现导入包数据转换 ClusterNet模型创建网络参数设置和数据导入训练网络前言最近 ...
python 异常点检测 cook距离_异常检测算法汇总
本文来自:https://github.com/Albertsr 第一部分:无监督异常检测 1. 算法 1.1 孤立森林(Isolation Forest) 算法论文: Isolation Fores ...
OpenMMLab 实战营打卡 - 第四课目标检测算法基础
(四)计算机视觉之目标检测算法基础目录前言一.目标检测是什么? 1.目标检测VS图像分类 2.检测最朴素方法--滑窗 Sliding Window (1)滑窗的效率问题 (2)改进 3.目标检测 ...
ThunderNet——快速目标检测算法
论文:ThunderNet: Towards Real-time Generic Object Detection 论文链接:https://arxiv.org/abs/1903.11752 最近几年 ...

带有社区检测算法的多标签学习方法预测药物靶点相互作用（DTI-MLCD）