https://www.sciencedirect.com/science/article/pii/S0893608022002507#fig1https://www.sciencedirect.com/science/article/pii/S0893608022002507#fig1论文地址

图1所示。说明我们提出的脑网络表征学习框架BN-GNN。虚线的左侧说明了一个MDP进程的示例。

首先，我们将脑网络构建模块导出的邻接矩阵作为当前状态，并将其输入到策略中。然后我们根据策略输出的引导信号(Q值)来决定当前的动作。这里我们将动作空间中所选择动作的指数作为动作值，来指导当前脑网络在GNN中的聚合次数。在特征聚合之后，我们使用全局池来获取网络实例级表示，并在MDP中训练GNN模型。随后，通过比较验证集上的性能变化来计算当前的奖励。

最后，应用转换策略得到下一个时间步的状态。

为了在MDP中训练策略，我们将该过程的状态-动作-奖励-状态四重过程记录到内存空间中，并按照DDQN方法计算策略的损失。

在虚线的右侧，我们应用训练过的元政策来指导新的GNN的训练，并执行脑网络分析任务。。。

摘要

现代神经成像技术使我们能够将人脑构建为大脑网络或连接体。获取大脑网络的结构信息和层次模式对理解大脑功能和疾病状态至关重要。近年来，图神经网络(GNNs)具有良好的网络表示学习能力，并提出了相关的脑网络分析方法。具体而言，这些方法通过特征聚合和全局池化，将脑网络实例转化为编码脑结构归纳的向量表示，用于下游脑网络分析任务。然而，现有的基于GNN的方法往往忽略了不同主体的大脑网络可能需要各种聚合迭代，使用固定层数的GNN学习所有的大脑网络。因此，如何充分释放gnn的潜力，促进脑网络分析仍然是非小事。为了解决这一难题，我们提出了一种新颖的脑网络表示框架BN-GNN，该框架为每个脑网络寻找最优的GNN结构。具体来说，BN-GNN利用深度强化学习(deep reinforcement learning, DRL)来自动预测给定脑网络所需的最优特征传播数量(反映在GNN层数上)。此外，BN-GNN提高了传统gnn在8种脑网络疾病分析任务中的性能上限。

1.介绍

随着现代神经影像学的发展，有效利用神经影像学数据已成为学术界和产业界的研究热点。其中许多技术，如扩散张量成像(DTI)和功能磁共振成像(fMRI) ，使我们能够构建人类大脑拓扑网络(称为“大脑网络”或“连接体”)。与由像素组成的大脑图像不同，节点/顶点和边缘/链接是大脑网络的组成部分。具体来说，网络中的节点通常表示感兴趣区域(ROI)，而边表示感兴趣区域对之间的连接或相关。来自不同成像方式的大脑网络之间往往存在明显差异(Liu等人，2018)。例如，DTI衍生的脑网络基于白质纤维编码ROI之间的结构连接，而FMRI衍生的脑网络记录区域的功能活动路径。dti衍生和fmri衍生的人类大脑网络都得到了充分的研究，并应用于全脑分析。

大脑网络的计算分析在医疗保健领域越来越受欢迎，因为它可以发现有意义的结构信息和层次模式，以帮助理解大脑功能和疾病。这里我们以脑疾病预测为例。脑疾病是影响人类健康的最常见疾病之一，发病率和致残率非常高，给社会带来巨大的经济和人力成本(Parisot et al.， 2018)。考虑到脑疾病易感因素的复杂性和多样性，病(AD)通常表现为记忆和视觉空间技能障碍(Braak & Braak, 1991;Zhang et al.， 2018)。虽然现有研究者经常通过分析受试者的脑网络状态来辅助推断脑疾病的类型，从而提供可靠有效的预防或治疗指南。例如，作为一种老年流行病，阿尔茨海默的医疗方法无法有效治疗AD患者，但在轻度认知障碍阶段，通过跟踪受试者的脑网络变化并进行介入治疗，可以延缓AD的发病(Huang & Mucke, 2012)。

脑网络分析的关键技术之一是脑网络表征(又称网络嵌入)(Cao等人，2017;Liu et al.， 2018)，旨在将受试者的大脑网络嵌入到有意义的低维表示中。这些网络表征很容易将受损或特殊的大脑网络从正常控制中分离出来，从而为传统的临床评估和神经心理测试提供补充或支持信息。作为当今流行的网络/图表示/嵌入框架，图神经网络(GNNs) (Hamilton, Ying， & Leskovec, 2017;Kipf & Welling, 2017;Velickovic等人，2018)将卷积应用于网络结构(Peng等人，2020;Sun等人，2021年)，它在推理网络内的关系归纳时学习深度特征(LeCun, Bengio， & Hinton, 2015;刘雪等，2020;Ma等人，2021年)。因此，许多基于gnn的嵌入算法(Arslan, Ktena, Glocker， & Rueckert, 2018;Ktena等人，2018;Zhang et al.， 2018)。对于将被测者的脑网络作为实例的脑分析任务，例如脑疾病预测，基于gnn的方法首先使用可堆叠的网络模块来聚合来自不同跃点邻居的信息。通过这种方式，他们捕捉到大脑网络的结构信息和层次模式。更具体地说，GNN通过边缘聚合邻居信息来学习节点级特征表示，其中GNN层的数量控制迭代聚合的总程度。然后对节点级特征矩阵进行全局池化，获得网络级表示。

虽然基于gnn的分析策略已经成功地引入到各种脑网络分析任务中，包括脑网络分类(Arslan et al.， 2018)和聚类(Liu et al.， 2018)，但要在不同的脑网络中充分释放gnn的潜力仍然是一个挑战。具体来说，现有的工作通常利用固定层数的GNN来学习所有的脑网络实例，忽略了不同的脑网络由于结构差异往往需要不同的最优聚合迭代。一方面，更多的聚合迭代意味着考虑更远跳跃的邻居，这可能会促使一些大脑网络学习更好的表示。不幸的是，增加GNN中的聚合数也可能导致过平滑问题(Chen等人，2020;Oono & Suzuki, 2019)，这意味着同一网络中的所有节点都具有难以区分或无意义的特征表示。另一方面，手动指定不同脑网络的迭代聚合数量是不可行的，特别是当实例集很大的时候。缓解这些问题的一个简单方法是加深GNN模型的跳跃连接(又称，捷径连接)(高和纪，2019;Li, Muller, Thabet， & Ghanem, 2019)，避免梯度消失和大量超参数设置。然而，这是一种次优策略，因为它无法在没有人工调整的情况下为不同的大脑网络自动化GNN架构。

针对上述问题，提出了一种用于脑网络分析的基于gnn的脑网络嵌入框架(BN-GNN)。随着最近元政策学习的提出和应用，我们期望一个元策略，它自动决定给定大脑网络的最优特征聚合数量(反映在GNN层的数量)。具体地说，我们启发式地将元策略的优化和决策迭代建模为马尔可夫决策过程(MDP)。首先，我们将随机抽样的脑网络的邻接矩阵作为初始状态，并将其输入到MDP策略中。其次，我们根据策略输出的最大Q值所对应的动作(一个整数)来指导MDP中GNN的构建。这里的动作值决定了GNN层的堆叠，它控制了当前脑网络上特征聚合的总数。第三，我们将节点特征汇集到网络表示中。然后通过网络分类优化当前的GNN，并采用一种新的策略计算当前的即时奖励。第四，我们通过启发式状态转换策略抽取下一个网络实例，并记录该过程的状态-动作-奖励-状态四重过程。特别地，我们应用了双深度q网络(DDQN) (Mnih等人，2015;Van Hasselt, Guez， & Silver, 2016)，一个经典的深度强化学习(DRL) (Arulkumaran, Deisenroth, Brundage， & Bharath, 2017)算法，来模拟和优化策略。最后，我们利用训练后的政策(即元政策)作为元知识来指导另一个GNN的构建和训练，并执行特定的脑网络分析任务。

总的来说，主要结果如下:

提出了一种基于GNN和DRL的新型脑网络表征学习框架(即bn - gnn)来辅助脑网络分析任务。通过这种方式，可以改变不同脑网络的GNN特征聚合数量，从而充分发挥传统GNN在脑网络表征学习中的潜力。
这是脑网络分析领域首次将DRL引入GNN模型。我们也是第一个使用不同层次的gnn来学习不同受试者的大脑网络的人。
在BP-DTI和HA-EEG等8种脑网络疾病分析数据集上的实验表明，BN-GNN算法在众多先进算法中脱颖而出，提高了传统gnn算法的性能上限。

本文的其余部分简要描述如下:

第2节和第3节分别描述了相关工作和初步知识。

第4节详细介绍了利用图卷积网络(GCN)实现BN-GNN (Kipf & Welling, 2017)和DDQN (Van Hasselt等人，2016)。

第5节给出了实验结果和相应的分析。

第6节总结了我们的工作。

2.相关工作

2.1图神经网络

gnn是目前处理拓扑图数据的首选策略，它遵循邻居信息沿边影响中心节点特征嵌入的原则。基于光谱和空间的GNN模型是现有GNN模型的两种主要标记。GNN模型的一个代表性产品是GCN (Kipf & Welling, 2017)，它的灵感来自于对欧氏空间图像的传统卷积运算。为了拓宽和提高聚合性能边界和可解释性，图注意网络(GAT) (Velickovic等人，2018)从目标节点的角度细化了邻居的相对重要性。为了提高大尺寸图的聚合效率，GraphSAGE (Hamilton et al.， 2017)为每个目标提取一致且预定义数量的本地邻居。此外，基于上述方法或框架提出了许多GNN变体，并做出了杰出的贡献，如在临床医学(Zhang et al.， 2018)。

2.2强化学习引导的图神经网络

近年来，随着RL技术的发展，许多研究将RL与gnn相结合，进一步提高了gnn的性能边界。例如，Dou等人(2020)提出了一种GNN算法CARE-GNN，以提高在欺诈检查任务中对欺诈者的识别能力。CARE-GNN首先根据邻居的可信度对其进行排序，然后利用RL指导传统GNN为每个节点过滤出最有价值的邻居，以避免欺诈者干扰正常用户。Peng, Zhang等人(2021)提出了一种新的递归和增强的图神经网络框架，从多关系图数据中学习更具区别性和高效的节点表示。Peng等人(2022)提出了一种考虑不同关系实现网络表示的GNN，该GNN基于多智能体RL进行关系重要性分配。Gao、Yang、Zhang、Zhou和Hu(2020)提出了一种图NAS算法，即graph NAS。graph NAS首先利用递归网络创建可变长度的字符串来表示gnn的架构，然后利用RL更新递归网络，以最大限度地提高模型构建的质量。Nishi, Otaki, Hayakawa, Yoshimura(2018)提出了一种基于gcn的交通信号控制算法NFQI，该算法采用无模型RL方法学习响应式交通控制，以应对环境知识不足时的临时交通需求变化。

深度强化学习将深度强化学习的感知能力与深度学习的决策能力相结合，是人工智能领域的一个新的研究热点。例如，Yan、Ge、Wu、Li和Li(2020)提出了一种虚拟网络嵌入算法(即V3C+GCN)，将DRL与基于GCN的模块相结合。Lai等人(2020)提出了一个元策略框架(即Policy-GNN)，它自适应地学习聚合策略，使用DRL在不同的节点上执行各种聚合迭代。虽然上述方法直接或间接采用RL或DRL来改进gnn，但目前还没有利用DRL来指导gnn辅助脑网络分析的工作，这往往需要针对不同的脑网络建立不同的模型。

2.3基于gnn的脑网络表征学习

不同于传统的脑网络表征学习的浅层方法，如张量分解(Cao等人，2017;Liu et al.， 2018)，一些作品使用gnn捕捉脑网络的深度特征表示，用于下游脑分析任务。具体而言，

Li等人(2020)提出了一种PR-GNN，其中包括正则化池化层，通过计算节点池化得分来推断哪些大脑区域是某些大脑疾病的必要部分。Bi等人(2020)提出了一种应用极限学习机(elm)的聚合器，它避免了调优迭代，并扩大了特性通过性能边界。此外，他们提供了一个基于上述聚合器的GNEA模型，以实现脑图分析。

Jiang、Cao、Xu、Yang和Zaiane(2020)提出的Hi-GCN方法可以对大脑网络进行分层嵌入。为了提高脑疾病分析的准确性，Hi-GCN考虑了图结构归纳，同时引入了患者群体层面的结构信息。Ma等人(2019)开发了一种用于脑网络分析的图学习算法，即HS-GCN，该算法利用两个gcn构建连体模型，并通过监督度量法学习脑网络表示。

Zhong, Wang, and Miao(2020)提出了一种基于脑电图的正则化GNN(即RGNN)情绪识别方法。Xing等人(2021年)开发了一种基于gcn的算法(即DS-GCNs)，可以从神经分析任务中容易获得的功能连接中压缩有意义的表征。DS-GCNs通过滑动窗口计算动态函数连接矩阵，并基于图卷积实现长、短时记忆层来处理动态图。

与单模态脑连接组研究相对应，gnn在多模态脑分析场景中也很受欢迎。例如，Zhang et al.(2018)提出了一种GCN模型(即MVGCN)，用于在大脑分析任务中结合不同的视图信息，帮助区分帕金森病病例和健康对照组。

Gurbuz和Rekik(2021)提出了一种基于GNN的多视图归一化网络(即mgnn - net)，将一组多视图大脑网络归一化并合并为一个。

虽然这些基于gnn的单或多模态方法在许多脑网络分析任务中取得了重大突破，但在脑疾病预测等实验中，未能对不同受试者的脑网络实现定制化聚合。

3.初步知识

3.1问题公式化

首先，我们制定大脑网络分析。接下来，我们介绍了GNN层预定义时的网络表示学习方法、MDP和DRL。关键的符号/符号列于表1。

G的初始加权矩阵 G的邻接矩阵的规范化形式 A

一般来说，脑连接体可以抽象为一个图G = (V, E)，其中V = {v1，…， vn}表示节点集，E包含加权边，表示节点之间的拓扑关系。让W表示G的初始加权矩阵，因此W(i, j)表示vi和vj之间的边相关性(当没有连接或连接弱时，边相关性可能趋于零)。设D = {G1，…， Gm}是以脑主体为基础的脑网络集合。我们假设这些网络实例具有不同的结构，但节点相同，其中特定的区域划分策略决定了节点的数量。给定第k个脑网络Gk = (Vk, Ek)，我们将其抽象为加权矩阵Wk∈Rn×n。

重点研究了基于drl引入的用于分类和聚类的gnn的脑网络表征学习问题。具体来说，我们关注的是分类任务，因为它往往是大脑网络分析的研究基础。给定数据集D，我们假设对应的网络标签Y是已知的。为方便起见，我们将D的训练集、验证集和测试集分别记为Dtrain、Dval和Dtest，其中D = Dtrain∪- Dval∪- Dtest。基于Dtrain∪- Dval中的脑网络，我们首先对策略π进行连续优化。

接下来，我们利用训练好的策略(即元策略)来指导GNN的构建，并利用自定义的GNN来学习每个脑网络满足特征聚合数量的节点表示。然后，通过在GNN的最后一层应用全局池化，将节点级特征张量转换为低维网络级表示矩阵E，使得具有不同标签的脑网络实例可以很容易地分离出来。最后，我们将E输入全连接层进行脑网络分类。

3.2使用固定层GNN学习网络表示

gnn通过网络结构来学习节点级的特征表示。给定一个实例G = (V, E)，我们收到它的邻接矩阵A∈Rn×n和初始区域特征F(0)∈Rn×d(0)，然后在一个固定层的GNN中表示vi∈V的特征聚合过程如下(Dou et al.， 2020):

指示模型的输入和输出特性。AGG(l)表示聚合模块，其上标(l)表示该特性或模块属于第l层。⊕是一种用于融合vi及其邻域特征的操作。σ表示像Tanh这样的激活函数。值得注意的是，A应该是可靠的，因为它在所有层都保持不变。以两个聚合的图卷积网络(GCN) (Kipf & Welling, 2017)为例，通过卷积实现式(1):

其中ˆA∈Rn×n是˜A的对称规范化形式，˜A = A + I是与身份矩阵I∈Rn×n添加的邻接矩阵。˜D∈Rn×n是˜A的度矩阵。在第一层，由于ˆA编码了每个节点的直接(1跳)邻居信息，ˆAF(0)本质上通过求和实现了第一次卷积聚合。在第二层，对邻接矩阵(即ˆAReLU(ˆA))进行连续相乘，使邻居的邻居(2-hop)信息包含在第二次聚合中。因此，当GNN模型的堆栈和聚合越多，GNN的接收域就越宽，参与聚合的邻居就越多。此外,T (1)

Rd(0)×d(1)和T(2)∈Rd(1)×d(2)分别是第一层和第二层特征变换的可学习矩阵。GCN平均分配所有邻居的重要性，而GAT (Velickovic等人，2018)在汇总特征时通过注意来计算邻居的重要性权重。以单头GAT的第一层为例，节点特性聚合如下

其中F(0)(i)∈R1×d(0)表示节点vi的初始特征表示，T(1)∈Rd(0)×d(1)是参数共享的特征变换矩阵，⊕表示拼接操作，q∈R1×2d(1)表示注意特征向量。C(i, j)是节点vj对节点vi的重要系数(一个实数)，ˆC是C的归一化形式，F(1)(i)∈R1×d(1)是目标vi的变换表示向量。这里V (i) ={vj: a (i, j) > 0}表示节点vi的邻居集。同样，GAT也通过改变层数来控制特征聚合的数量。在最后一层l完成最终的聚合后，基于gnn的方法对所有节点进行全局池化，得到最终的网络表示。全局平均池化过程描述如下:

其中E(i)∈R1×d(l)和F(l) i (j)分别为第i个网络实例Gi的网络级特征向量和节点级特征矩阵。那么该部分的交叉熵损失如下:

其中T(l+1)是作为分类器应用的全连接层，Y(i)表示第i个大脑实例的类标签。

在脑网络疾病分析中，大多数实例可以抽象为加权矩阵来描述脑区域之间的联系，但往往没有初始区域特征。此外，关于构建基于gnn的脑网络学习的信息节点特征和边缘的研究较少。常用的策略是使用每个脑网络G相关联的初始加权矩阵W作为其初始节点特征(即F(0) = W)，并为GNN定义一个组级邻接矩阵A。例如，Zhang等人(2018)将A定义为经过k近邻(KNN)处理的粗粒度网络，Zhang和Huang(2019)在表示学习过程中通过小世界模型构造拉普拉斯算子来推断A。然而，对不同的大脑网络使用相同的邻接矩阵可能会模糊不同网络之间的差异。不同于以往的工作(Zhang et al.， 2018;Zhang & Huang, 2019)，我们的目标是为每个脑网络生成单独的邻接矩阵，并基于不同层次的gnn实现不同脑网络的网络表示学习。

3.3马尔可夫决策过程

MDP是序列决策问题的自然描述，用于模拟代理在具有马尔可夫属性的环境中可以实现的随机行为和奖励。在这里，我们将MDP表示为一个五元组(S, A， π， REW, R)，其中S和a表示状态和行动集合/空间，π是输出输入状态的行动条件概率分布的策略，REW: S × a→R是即时奖励函数，R是奖励随时间的累积(也就是回报)。每个时间步i∈[1,t]的决策过程如下:agent首先感知当前状态si∈S，然后按照π的指令执行一个动作。然后，环境(受动作ai的影响)将反馈给代理下一个状态si+1以及奖励ri = REW (si, ai)。在标准MDP中，我们的目标是训练π使折现收益的积累最大化。总收益可以用求和的形式表示为:

其中γ∈(0,1)是约束低可靠性未来奖励的贴现系数。下一节将详细介绍策略π的优化步骤。

3.4利用深度强化学习解决MDP

在许多情况下，状态空间S是巨大的或无穷无尽的。在这种情况下，通过维护和更新状态操作表来训练策略π是次优的或不可行的。深度强化学习(DRL) (Arulkumaran et al.， 2017)是一种有效的解决方案，因为它可以使用神经网络来模拟和近似任何状态和所有可能的行动之间的实际关系。在这里，我们重点研究了一种经典的DRL算法，称为双深度q学习(DDQN) (Mnih等人，2015;Van Hasselt等人，2016)，它使用两个深度神经网络(DNNs)来模拟策略π。具体来说，在每个时间步i中，DDQN首先将当前状态si输入到计算DNN中，得到所有动作的预测值，并将最大Q值对应的动作视为当前动作，其公式如下:

其中ϵ-greedy可以使DDQN更加便携，避免探索和利用的困境。最大Q值maxai(Q (si, ai))本质上是当前状态si下的期望最大折现收益，对应的Bellman方程可以表示为:

DDQN在确定当前动作ai后，使用根据具体环境设计的奖励函数，计算出当前的实际奖励(即ri = REW (si, ai))，然后进行状态转换，得到下一个状态si+1。此外，在DDQN中有一个内存空间，记录每个MDP进程(也称为“经验”，并记录为状态-动作-奖励-状态四倍〈si, ai, ri, si+1〉)。为了优化dnn的经验回放功能，DDQN首先记录当前的经验，然后从内存空间中随机抽取一个内存块。例如，通过经验〈si, ai, ri, si+1〉，dnn(即策略)的损失可以计算如下:

其中状态si输入到评估DNN获得第i个时间步预测的最大Q值maxai(Qeval(si, ai))，下一个状态si+1输入到目标DNN计算下一个时间步的最大Q值maxai+1(Qtarget(si+1, ai+1))， ri为实际重码。DDQN基于Bellman方程，以目标DNN输出的max(Qtarget(si, ai))作为时间步i的实际最大Q值，通过反向传播算法训练评估DNN。值得注意的是，DDQN并不通过损耗来更新目标网络，而是将评估DNN的参数复制到目标DNN。通过这种方式，DDQN有效地缓解了DRL中经常出现的高估问题。由于DDQN使用两个dnn来模拟策略π，因此上述也是π的训练过程。

4.方法

图一说明了脑网络表征学习框架BN-GNN，该框架由三个模块组成:网络构建模块、元策略模块和GNN模块。网络构建模块为元策略模块提供状态空间。元策略利用GNN模块的反馈(即奖励)不断寻找最优的元策略π， GNN模块根据元策略的引导(即动作)进行脑网络表征学习。接下来，我们将介绍各个模块的技术细节。

4.1网络构建模块

网络构建模块根据大脑网络的初始加权矩阵生成邻接矩阵，为元策略模块提供状态空间。在GNN中，依赖于邻接矩阵A的特征聚合是必不可少的。因此，A的设计应适当反映邻域相关性，因为它直接影响节点特征表示学习。受Zhang等人先前工作的启发。(2018)，我们利用KNN构建可靠的邻接矩阵来改进学习脑网络的gnn表示。具体来说，我们以大脑为例G = (V, E)，利用其加权矩阵W = F(0)和KNN，得到任意节点vi∈V的可靠邻居V (i)。如果vi∈V (j)或vj∈V (i)，则A(i, j) = 1, A(j, i) = 1，否则两者均为零。之后，我们计算新的边置信度来细化可靠矩阵A:

式中F(0)(i)为F(0)的第i行和vi的初始特征嵌入。该模块还用于构建状态转换策略中的主体网络，这将在下面的小节中介绍。

4.2Meta-policy模块

元策略模块训练一个可以被视为元知识的策略，以确定GNN中大脑网络特征的聚合数量。正如在3.3节中提到的，策略π的学习被抽象为一个包含五个基本组成部分的MDP，即(S, A， π， REW, R)。在这里，我们在脑网络嵌入时间步i的背景下给出了相关的定义。

状态空间(S):状态si∈S表示大脑实例的邻接矩阵。

动作空间(A):动作ai∈A决定了大脑网络需要进行特征聚合的迭代次数，体现在GNN层数上。由于GNN层计数是一个正整数，我们将操作空间中每个操作的索引定义为对应的操作值。

策略(π):时间步i中的策略根据输入状态si输出动作ai。这里我们使用3.4节中提出的双深度q-network (DDQN)来模拟和训练策略，并将训练后的策略称为元策略。

奖励函数(REW):奖励函数在时间步i中输出奖励ri。由于我们希望通过策略引导的聚合来提高网络表示性能，我们直观地将当前即时奖励ri定义为当前验证分类性能与上一个时间步性能之间的差值(一个十进制)。

Return (R): timestep i的Return Ri表示在间隔时间[i, t]内所有奖励的折现累加。基于DDQN，我们将DDQN中dnn输出的Q值近似为不同操作的奖励。由于DDQN总是选择回报最大化的操作，所以它与标准MDP的目标一致。

根据这些定义，元策略模块在每个时间步i中的过程包括5个阶段:

(1)采样一个脑网络，取其邻接矩阵作为当前状态si。

(2)根据策略π输出的最大Q值对应的动作ai，确定处理当前脑网络的GNN层数。

(3)根据业绩变化计算当前的奖励ri(技术细节将在下一小节介绍)。

(4)用一种新的启发式状态转移策略得到下一个状态si+1。具体而言，我们将每个主体的脑网络抽象为一个粗节点，根据网络构建模块构建主体网络，通过对加权矩阵进行向量化得到初始节点特征。然后通过节点采样实现状态转换。

例如，给定当前状态si和动作ai，我们随机抽取与主体网络中状态si对应的粗节点的ai-hop邻居，其中与采样邻居对应的大脑实例邻接矩阵是下一个状态si+1。这样，状态转移服从马尔可夫，即下一个状态si+1只受当前状态si的影响，而不考虑之前的状态。

(5)记录这个时间步长过程，根据Eq.(9)和反向传播算法训练策略π。

4.3GNN模块

GNN模块包含两个具有池化层的GNN，用于学习大脑网络表示。第一个GNN(称为GNN1)在MDP中用于训练策略π。如4.2节所定义，每个动作都是间隔[1,b]内的正整数，其中b是所有可能动作的总数。由于动作ai指定了特征聚合的次数，而GNN通过控制层数来实现不同的聚合，因此当ai = j (j为ai在A中的指数)时，GNN1需要叠加j个神经网络。考虑到不同过程中的动作通常不同，在每个时间步中重构GNN1是非常耗时和耗时的。为了缓解这一问题，我们使用参数共享机制来构建b层GNN1。例如，给定当前的动作ai = j，我们只使用GNN1的前j层来学习当前的大脑网络Gi。GCN (Kipf & Welling, 2017)实现的聚合过程如下:

在得到最终的节点特征矩阵F(j)后，我们利用式(4)的池化得到网络表示。然后我们使用式(5)的反向传播算法对GNN1进行训练。由于当前时间步只涉及GNN1的前b层，因此只更新前b层的参数。与为每个网络单独构造一个GNN相比在每个时间步中，参数共享机制显著提高了训练效率。

为了计算当前的奖励ri，我们测量GNN1在验证集Dval上的分类性能。MDP的即时奖励如下:

其中PER表示验证数据上的分类结果的性能指标(这里我们应用了准确性)。w表示用于确定基准性能的历史记录数。1 w∑i−1 i−w PER(si, ai)。相对于只考虑前一个时间步(i−1)的性能，基于多个历史性能的基准提高了ri的可靠性。

由于GNN1和policy在MDP中的训练通常不是在同一时间步完成的，因此使用GNN1对测试集Dtest进行脑分析任务是不方便和不合适的。因此，在MDP之后，我们应用经过训练的元策略来指导一个新的GNN(称为GNN2)的训练和测试，其中GNN2和GNN1具有相同的聚合类型和参数共享机制。算法1给出了BN-GNN算法的详细步骤。

5.实验

八个真实的大脑网络数据集被用来评估我们提出的BN-GNN。我们的第一步是给出大脑分析数据集信息(第5.1节)、比较基线和实验设置(第5.2节)。然后，我们在脑网络分类任务上进行了充分的实验，以解决关于BN-GNN有效性的多个研究问题(RQs):

•RQ1:BN-GNN是否优于其他先进的脑网络表示算法?

•RQ2:包含在BN-GNN中的三个模块能否改善脑网络表征学习?

•RQ3:BN-GNN中的重要超参数如何影响模型表示性能?(5.5节)

5.1数据集

人类免疫缺陷病毒感染(HIV-DTI和hiv - fMRI): Ragin等人(2012)通过两种方法收集了原始数据，即DTI和fMRI。主题数据包含70个实例，其中一半患者和一半患者是健康的，在年龄、性别、教育水平等方面相似。接下来是Ma等人。(2017)，我们采用DPARSF (Yan & Zang, 2010)对fMRI数据进行预处理，然后对图像进行高斯平滑。为了消除噪声和漂移，我们还应用了线性趋势和带通滤波技术。此外，我们通过AAL图谱(Tzourio-Mazoyer et al.， 2002)将任何实例划分为116个roi，并丢弃其中的26个。然后，我们获得所有受试者大脑实例的网络初始加权矩阵。对于DTI，我们首先利用FSL (Smith et al.， 2004)和噪声滤波、图像校正等技术来处理DTI数据。然后我们得到了对应的90个区域的脑网络加权矩阵。

双相情感障碍(BP-DTI和BP-fMRI):数据集还包含fMRI和DTI模式，包括45名健康受试者和52名具有相似特征的双相情感障碍患者(Cao等人，2015)。对于fMRI，我们使用CONN (Whitfield-Gabrieli & Nieto-Castanon, 2012)来获得初始的大脑网络。具体来说，我们首先对原始EPI图像进行重新排列和共配准，然后进行归一化和平滑。之后运动伪影、脑脊液等引起的混淆影响将消失。最后，从标记的灰质区域计算出每个初始连接体。对于DTI数据，我们遵循Ma等人(2017)的数据处理策略，生成与fMRI网络区域相同的大脑网络。

注意缺陷多动障碍(ADHD-fMRI)、多动冲动障碍(HI-fMRI)和性别(GD-fMRI):初始数据来自全脑fMRI图谱(Craddock, James, Holtzheimer III, Hu， & Mayberg, 2012)。继Pan, Wu, Zhu, Long和Zhang(2016)的工作之后，我们使用了Craddock等人(2012)的功能分割结果CC200，它将每个实例划分为200个roi。为了探索ROI之间的关系，我们记录了每个ROI在特定体素时间过程中的平均值。同样，我们根据两个时间过程之间的Pearson相关性得到两个roi之间的相关性，并根据Pan et al.(2016)设定的阈值生成三个可靠的脑网络实例集。在Craddock等人(2012)和Pan等人(2016)中阐述了更多的处理方法。

听力活动(HA-EEG):使用62个电极记录61名健康成年人的原始脑电图(EEG)数据(Hernandez-Perez et al.， 2021)。参与者要么戴着耳机听单个单词(主动状态)，要么观看一段无声视频，忽略演讲(被动状态)。为了将数据集转换为可用的版本，我们使用实地考察工具包(Oostenveld, Fries, Maris， & Schoffelen, 2011)和基于皮质薄片的源模型以及边界元素头部模型进行源分析。具体来说，我们计算了所有源的相干性，并基于68个区域的Desikan-Killiany皮质图谱分割源。此外，我们利用相干谱的虚部作为连通性度量来减少电场扩散的影响(Nolte et al.， 2004)。

功能磁共振成像(fMRI)模式中两个受试者的大脑网络示例。上面的主体来自HIV，下面的主体来自BP。从左到右分别是初始加权矩阵W，由网络构建模块生成的邻接矩阵A (Eq.(10))，以及其他参与GCN聚合过程的矩阵(Eq.(2))。

5.2基线和设置

为了评价BN-GNN，我们将其与多个优秀的基线进行比较，其信息如下:

DeepWalk & Node2Vec (Grover & Leskovec, 2016;Perozzi, AlRfou， & Skiena, 2014): Deepwalk的主要思想是在网络中进行随机漫步，然后生成大量的节点序列，将这些节点序列作为样本进一步输入到word2vec中(Mikolov, Chen, Corrado， & Dean, 2013)，最后得到有意义的节点表示向量。与DeepWalk相比，Node2Vec通过有偏随机漫步来平衡网络的同质性和结构等价性。两者都是网络表征学习中常用的基线。

GCN & GAT (Kipf & Welling, 2017;Velickovic等人，2018):图卷积网络(GCN)在图傅里叶域进行卷积聚合，图注意网络(GAT)结合注意机制进行聚合。他们都是杰出的gnn。

GCN+skip和GAT+skip:继Li等人(2019)之后，我们通过分别向GCN和GAT添加剩余的跳过连接来构建GCN+skip和GAT+skip。

GraphSAGE & FastGCN(陈，马，&肖，2018;Hamilton et al.， 2017):它们是两种改进的GNN算法，采用不同的采样策略。为了提高计算效率，GraphSAGE只采样预定义数量的邻居节点作为对象进行聚合。与GraphSAGE采样邻居节点不同，FastGCN采样所有节点，基于初始结构构建新的拓扑，并对全局信息进行编码。

PR-GNN & GNEA & Hi-GCN (Bi等人，2020;Jiang等，2020;Li et al.， 2020):三个基于gnn的脑网络分析基线，都包含了优化神经成像技术生成的初始脑网络的方法。

PR-GNN利用规则化的池化层对网络中的节点进行过滤，并使用GAT进行特征聚合。

GNEA通过每个脑网络中的相关系数，为所有节点确定常数数量的邻居。

Hi-GCN利用基于特征向量的池化层EigenPooling从初始网络中生成多个粗粒度子图，然后对网络信息进行分层聚合，生成网络表示。

SDBN (Wang et al.， 2017):它不涉及gnn，而是引入卷积神经网络(CNNs) (Krizhevsky, Sutskever， & Hinton, 2012)来对受试者的大脑实例进行连接组嵌入。

对于设置，我们分别用GCN和GAT完成BN-GNN，即BN-GCN和BN-GAT。此外，我们设置总时间步数t为1000，所有可能的动作总数b为3，窗口大小w的REW为20，贴现系数γ为0.95。对于ε概率的柱一，我们将其设置为在前20个时间步内线性下降，起始概率为1.0，结束概率为0.05。对于所有基于gnn的方法，我们使用斜率为0.2的ReLU作为特征聚合的激活算子，并在每两个相邻神经网络之间使用速率为0.3的dropout。

5.3. 模型比较(RQ1)

为了比较所有方法的性能，我们在8个真实数据集上执行疾病或性别预测(即脑网络分类)任务。并以平均精度和AUC作为测量指标。考虑到一些基线很难处理大脑网络的初始加权矩阵，这些矩阵几乎是完整的图，我们对网络构建模块生成的邻接矩阵进行所有方法的表示学习。采取图2以GCN为例，展示了两个受试者在HIV-fMRI和BP-fMRI中邻接矩阵的转换过程。根据表3所示的值，可以得出五个结论:

图2多算法在脑网络分类任务中的性能比较

第一部分比较了多种方法的实验结果，第二部分和第三部分对不同层次的GCNs和GATs的表示性能进行了细化。每个部分的粗体和斜体值分别表示所有方法的最佳和次最佳结果。↑表示与各部分最佳基线相比，我们的BN-GNN的改进(%)。

图3消融实验的可视化，以验证网络构建模块在两个数据集上的性能

(1) BN-GNN总是在所有数据集上获得最高的平均精度值，证明其脑网络表示性能优于基线。具体而言，BN-GNN在8个数据集上的分类准确率平均比次优算法高出约2.0%。

(2)所有基于gnn的方法都优于传统的网络表示方法(即DeepWalk和Node2Vec)。这种现象是意料之中的，因为GNN架构可以更好地捕捉大脑网络的局部结构特征，从而产生更多信息的区域表征。此外，在脑网络分类任务中，脑网络分类任务中的端到端学习策略往往优于无监督表示学习方法。(3)基于gat的方法一般优于基于gcn的方法。与后者相比，当层堆叠在两层以上时，前者的性能通常不会有很大的下降。这是因为GAT中包含的注意机制缓解了某些数据集上的过平滑问题。

(4)结合了跳转连接的gnn(即GCN+跳转和GAT+跳转)并不总能使更深层次的神经网络表现得更好。与最好的GCN和GAT模型(表3后两部分)相比，BN-GCN和BN-GAT在8个分类任务上的平均准确率分别提高了2.5%和2.1%。尽管这些观察结果揭示了跨接连接的局限性，但它们也证实了这项工作的假设，即不同的大脑网络需要不同的聚合迭代。换句话说，由于真实受试者的脑网络通常是不同的，为不同受试者定制不同的GNN架构对于提高网络表征性能和提供治疗干预至关重要。

(5) GraphSAGE和FastGCN虽然提高了原有GCN的效率或结构信息挖掘能力，但性能仍不如我们的BN-GNN。这一现象表明，在脑网络分析中，寻找适合网络实例的特征聚合策略可能比探索采样或结构重建策略更重要。

5.4烧蚀研究(RQ2)

第5.3节的分类结果和分析证实了基于gnn的方法在处理脑网络数据方面的优势。此外，我们实施消融研究，以检测网络构建和元策略模块包含在我们提出的BN-GNN对上述分类任务的独立影响。具体而言，对于网络构建模块，我们分别在BP-fMRI和HIV-fMRI上比较基于初始加权矩阵和处理后的邻接矩阵的分类结果。对于元策略模块，我们比较了BN-GNN和基于随机策略的GNN在四个数据集上的性能。此外，我们展示了在各种输入类型上实际使用我们的想法的例子，以便更好地了解它是如何工作的。

图3可视化了消融研究建立网络的精度和AUC得分，其中我们可以得到三个关键的观察结果:(1)利用网络建立模块产生的邻接矩阵代替初始加权矩阵，大大提高了基于gnn的方法在两个度量下的分类性能。这一现象表明，我们提出的网络构建模块有利于促进GNN在脑网络分析研究中的应用。(2) SDBN在初始矩阵上的性能优于邻接矩阵。一方面，SDBN重构了大脑网络，增强了初始加权矩阵的空间结构归纳，从而使CNN捕捉到高度非线性的特征。另一方面，网络构建模块生成的稀疏邻接矩阵可能并不适合基于cnn的方法。值得注意的是，SDBN的最优结果总是不如BN-GNN，这说明基于GNN学习拓扑脑网络是有意义的。(3)尽管基于GAT的方法(包括PR-GNN和GAT)使用注意技术来学习不同邻居的权重，但它们仍然难以处理密集连接的初始大脑网络。因此，为GNN生成邻接矩阵(如图2所示)可以改善脑网络表征学习

我们将BN-GNN中的元策略模块替换为随机策略(对给定实例随机选择一个动作)来构建消融实验的基线，即GCN+RP和GAT+RP。meta-policy模块消融实验结果如图4所示，可以得出两个结论:(1)GCN+RP和GAT+RP在ADHDfMRI、HI-fMRI、GD-fMRI和HA-EEG上的表现均低于BN-GNN和原始gnn。(2)我们的BN-GNN比原来的gnn更好。这些现象再次表明我们的元政策的引入可以有效地提高脑网络的分类性能。

图4消融实验的可视化，以验证元策略模块在四个数据集上的性能，其中GCN+RP和GAT+RP采用随机策略而不是元策略来指导GCN和GAT的聚合过程。

为了探索我们的思想在不同输入类型上的实际应用，我们在图5中展示了固定层的GCNs和元策略引导的GCN在BP-DTI上的分类性能。首先，我们观察图5(a)，发现单层GCNs通常在使用初始加权矩阵作为输入时表现最好。此外，GCN的性能随着模型栈的增加而急剧下降。这可能是因为初始脑网络通常具有较高的连接密度(如图2(a)所示)，这就导致了多层GCNs在学习过程中出现过平滑问题。其次，图5(b)显示了以度矩阵为输入的分类结果。由于度矩阵不编码邻居信息(如图2(b)所示)，这些GCNs退化为没有特征聚合的全连接神经网络。因此，不同层数模型的脑网络分类性能变化相对平稳。

图5所示。从BP-DTI随机抽样20个脑网络的分类结果可视化，其中不同的图使用不同类型的输入/邻接矩阵。从下到上，y轴表示有y层的GCN模型和由元策略指导的GCN模型。x轴表示大脑网络指数。从亮到暗的颜色意味着从低到高的平均精度。

最后，基于我们的网络构建模块对初始数据进行处理后，降低密度的归一化矩阵所需的最优GCN层数变得非常不同，如图2(c)所示。此外，与前两类输入的大脑分类相比，可靠的脑网络提高了整体性能的上限。这再次暗示了建立可靠的大脑网络和定制最佳聚合数量的重要性。特别地，我们的元策略通常能够找到三种输入类型对应于大脑实例的最佳模型层数。因此，即使邻接矩阵的连接密度非常大或非常小，我们的元策略(即BN-GCN)的GCN通常表现最好(如图2中的第一行子图所示)。在未来的研究中，网络构建模块可以继续服务于大脑网络分析。元策略不仅限于gnn的应用，还可以推广到其他对模型层数有不同要求的场景。

5.5超参数分析

研究了网络构建模块中的邻居预定义量、元策略模块中的动作集大小和GNN模块中网络表示的维数三个模块中关键超参数的浮动扰动。从图6(a)可以看出，在建立邻接矩阵时增加邻居的数量(由KNN的k决定)并不一定能得到更好的网络表示。可能的原因是大脑网络中的每个区域只与有限数量的邻居有有意义的连接。从图6(b)中，我们可以观察到BN-GNN在聚合次数为3时的性能往往是最好的。当动作空间进一步扩大时，BN-GNN仍然保持相对稳定的性能。这两个现象验证了大多数大脑网络在3次聚集中都能得到最好的表示，BN-GNN对动作集大小的波动(即所有可能的动作，这也是可能发生的最大的聚集迭代)具有鲁棒性。从图6(c)的结果可以看出，除非嵌入维度太小，否则通过更新嵌入维度，BN-GNN的性能不会出现过大波动。

本文提出了一种基于gnn的脑网络表示框架，即BN-GNN。特别是BN-GNN首次将DRL和GNN相结合，实现了针对不同网络的自定义聚合，有效地改进了传统的GNN在脑网络表征学习中的应用。实验结果表明，BN-GNN在8项脑网络疾病分析任务中始终优于最先进的基线。在今后的工作中，我们将从技术和实际两个方面对BN-GNN进行改进。在技术上，我们讨论了自动搜索超参数的思想，作为我们的模型BN-GNN未来的发展趋势。实际上，我们陈述了我们的模型的可解释性，这是大脑网络分析的一个新兴领域。具体来说，即使我们观察到邻居数量的变化对BN-GNN的性能影响很小，手动设置这个超参数也不是最优解决方案。因此，可以在BN-GNN中引入多智能体强化学习，自动搜索最优脑网络结构和模型层数。此外，对于脑疾病分析的应用，分类结果的可解释性往往与准确性同样重要。换句话说，在成功预测大脑网络受损的同时，也有必要了解网络中的哪些区域是造成损伤的原因。因此，为了提高可解释性，可以在BN-GNN中引入更好的pooling或interpretation技术，如attention-based pooling和grad-cam。

深度强化学习引导的脑网络分析图神经网络相关推荐

揭秘深度强化学习-6状态空间过大之神经网络来帮忙
看完觉得深受启发的一篇文章,根据自己的理解翻译过来留以后再次翻看原文地址http://neuro.cs.ut.ee/demystifying-deep-reinforcement-learning/ ...
中科院自动化所介绍深度强化学习进展：从AlphaGo到AlphaGo Zero
来源:德先生概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展: 从AlphaGo ...
用Turtlebot3实现基于深度强化学习的多移动机器人导航避障的仿真训练（附源码）
Do not blindly trust anything I say, try to make your own judgement. 这是我的第一篇CSDN文章,本科四年一直都是白嫖现成的CSDN ...
具有多样-代表性奖励机制的无监督视频摘要深度强化学习
题目 <Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativ ...
基于深度强化学习的智能汽车决策模型
1.基于深度强化学习的智能汽车决策模型以神经网络为核心的智能体最主要的优势在于其依靠大量的数据自主学习的能力,通过数据驱动智能体可以应对各种未经历过的复杂环境.强化学习是一种经典的智能系统设计方案, ...
深度强化学习综述(上)
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接书的勘误,优化,源代码资源人工智能 ...
Nat. Mach. Intell. | 基于深度强化学习寻找网络中的关键节点
今天给大家介绍哈佛大学Yang-Yu Liu课题组和加利福尼亚大学洛杉矶分校Yizhou Sun课题组发表在nature machine intelligence上的一篇文章"Finding ...
电子网络发票应用系统网络不通_深度强化学习在典型网络系统中的应用综述
作者:郑莹,段庆洋,林利祥,游新宇,徐跃东,王新摘要:近几年来,以深度强化学习(Deep Reinforcement Learning,DRL)为代表的人工智能技术被引入计算机网络系统设计中 ...
深度强化学习DQN网络
DQN网络 DQN(Deep Q Networks)网络属于深度强化学习中的一种网络,它是深度学习与Q学习的结合,在传统的Q学习中,我们需要维护一张Q(s,a)表,在实际运用中,Q表往往是巨大的,并且 ...

深度强化学习引导的脑网络分析图神经网络

摘要