基于深度强化学习的进化多目标优化自适应算子选择

进化算法（EA）已经成为多目标优化的最有效技术之一，其中已经开发了许多变异算子来处理具有各种困难的问题。
虽然大多数EA始终使用固定的运算符，但为新问题确定最佳EA 是一个劳动密集型过程。
因此，最近的一些研究致力于在搜索过程中自适应选择最佳算子。为了解决操作算子选择中的探索与开发困境，本文提出了一种基于强化学习的新算子选择方法。

在该方法中，决策变量被视为状态，候选算子被视为动作。

通过使用深度神经网络学习估计给定状态下每个动作的Q值的策略，所提出的方法可以为每个父代确定最大化其累积改进的最佳算子。基于所提出的方法开发了一个EA，经验证，该方法在具有挑战性的多目标优化问题上比现有方法更有效。

在过去三十年中，进化计算被公认为是解决多目标优化问题（MOP）的有效方法，它演化出一组解决方案，以黑箱方式近似MOP的帕累托前沿[1]。由于不使用与问题相关的信息（例如梯度），多目标进化算法（MOEA）通过变异算子迭代生成新的解，并通过环境选择消除坏解。这样的搜索范式使MOEA能够解决不同类型的MOP，并在单个学习中获得一组收敛良好且多样的解决方案[2]。

进化算法中的变异算子定义了基于现有解（即父代）生成新解（即子代）的规则，其中现有算子表现出截然不同的搜索动态和性能[3]。例如，遗传算法通过交叉和变异算子生成后代，其中交叉算子提供了良好的探索能力[4]，而变异算子可以帮助解逃离局部最优[5]。
差异进化根据其他解决方案之间的差异使每个解决方案发生变异，这擅长处理复杂的变量联系[6]。
粒子群优化通过学习局部和全局最佳解来更新解，这为群体在高维搜索空间中提供了快速收敛速度[7]。
协方差矩阵自适应进化策略通过学习多元正态分布模型对新的解决方案进行采样，在许多现实场景中显示出很高的效率[8]。

根据无免费午餐定理，不存在在所有优化问题上优于任何其他算子的算子[9]。这意味着在解决特定MOP时应仔细选择算子。算子通常可以通过经验比较从一些候选中选择[10]。然而，这种试错过程对于解决许多具有计算昂贵目标的现实问题是不切实际的[11]。为了解决这个问题，已经提出了一些方法来在优化过程之前或期间确定给定问题的最佳算子。
前一种方法被称为离线算法推荐，其中训练模型以学习问题特征与多个算子的性能之间的关系，通过将新问题的特征反馈给模型，可以确定新问题的最佳算子
虽然给定问题的特征很难精确提取[3]，但后一种方法旨在根据历史世代的性能自适应选择算子，这被称为在线算子选择或超启发式。

这些方法建议了各种信用分配策略，以衡量每个算子带来的从父代到子代的适应度改进[14]，[15]，并建议了各种选择策略，以确定下一个生成子代的算子

自适应算子选择在复杂优化问题上的优势显而易见[18]，[19]。然而，它面临着探索与开发的两难境地，其中历史表现较好的算子有望获得更高的优先级，以生成有前途的后代，而历史表现较差的算子也有望被探索，以使后代解决方案摆脱局部最优[17]。这在求解MOP时变得更为严重，因为每个解决方案都有多个目标值，应该同时考虑收敛性和多样性。因此，本文旨在通过强化学习解决这一困境，其中这项工作的贡献包括以下方面：
1.提出了一种基于强化学习的算子选择方法。通过将决策变量视为状态，将候选算子视为行动，将适应度改进视为奖励，将种群进化视为环境，智能体使用深度神经网络学习策略，估计给定状态下每个行动的Q值。Q值表示算子在未来而不是过去所带来的累积适应度改善，因此，未来几代有望产生更好的后代解决方案

2.通过将所提出的算子选择方法嵌入到具有动态资源分配的基于分解的MOEA中，开发了MOEA。在所提出的MOEA中，代理迭代地更新深度神经网络，以指导算子的选择。通过采用四种不同类型的变异算子作为候选，所提出的MOEA在具有多模态景观和复杂可变连杆的MOP上表现出高度的通用性，并且在实验中获得了比最先进的MOEA更好的性能。

本文的其余部分组织如下。在第二节中，回顾了现有的算子选择方法，并介绍了强化学习的基本概念。第三节详细阐述了拟议的算子选择方法和MOEA。在第四节中，给出并分析了实验结果。最后，第五节给出了结论。

因此，求解MOP的目标是找到一组解，作为所有帕累托最优解的代表，其中找到的解与帕累托前沿之间的接近度称为收敛性，找到的解的分布和均匀性称为多样性。

大多数MOEA解决MOP时不使用任何与问题相关的信息，这意味着它们只能通过比较其目标向量来选择解决方案，并根据现有解决方案生成后代。因此，已经提出了各种变异算子来生成具有预定义规则和公式的后代，其中遗传算法（GA）[21]、微分进化（DE）[22]、粒子群优化（PSO）[23]和分布估计算法（EDA）[24]的算子是MOEA中最流行的算子。
从许多现有研究中可以观察到，这些算子中的每一个在不同类型的MOP上都比其他算子具有更好的性能，例如具有多模态景观的DTLZ问题的遗传算法[25]，具有复杂变量链接的UF问题的DE[26]，具有大量变量的LSMOP问题的PSO[7]，以及具有非线性变量链接的IMF问题的EDA[27]。简而言之，没有一个运营商在所有类型的MOP上都有最佳的性能。

为了在各种类型的MOP上获得良好的性能，并在没有试验的情况下解决未知的MOP，已经提出了一些自适应算子选择方法，以在单个优化过程中实现最佳算子的选择和MOP的优化。在下一小节中，将回顾现有的自适应算子选择方法。

B现有的自适应算子选择方法
优化过程中算子的选择本质上是一个多臂老虎机问题，其目标是在不知道从每个臂获得的奖励的概率分布的情况下，使多个臂上固定数量的游戏的总奖励最大化[28]。
在算子选择方面，应设计如图1所示的信用分配策略和算子选择策略，其中前者根据算子最近生成的子代解决方案带来的适应度改进来奖励算子（即arm），后者根据所有算子的奖励来决定选择下一个算子[17]。

算子选择的想法最初是针对单目标优化提出的[29]。信用分配最常用的策略之一是根据子代解决方案[18]，[30]带来的目标值的提高来奖励算子，即max{0，（f（p）−f（o））/f（p）}，其中f（p）和f（o）分别表示父解和子解的目标值。

通过比较所有算子[19]、[31]生成的子解的目标值，即1，− f（o）∑ o′f（o′），再去奖励算子，其中f（o）和f（o’）分别表示由算子和其他算子生成的子解的目标值。为了跟踪搜索过程的动态，[14]中建议使用滑动窗口保存最近生成的子代解决方案带来的客观改进。每个算子的奖励被设置为其最大值，但不是窗口中保存的平均目标改进，因为很少但大的改进被认为比频繁但小的改进更有价值[32]。

单目标优化的信用分配很简单，因为可以直接计算解的目标值之间的差异。相比之下，测量具有多个目标的解决方案带来的适应度提高变得更加复杂，其中应同时考虑收敛性和多样性[33]。早期为多目标优化量身定制的策略基于帕累托-优势关系，其中，如果生成的子代解决方案支配其父代[34]或支配上一代的许多解决方案[15]，则算子将获得奖励。为了明确考虑收敛性和多样性，在[35]中，将帕累托度量和密度度量集成到奖励中。在聚合函数和权重向量的帮助下，可以将MOP的多个目标转换为单个目标，以便于测量收敛性和多样性[36]。因此，针对基于分解的MOEA提出了一些信用分配策略，其中根据子代解决方案带来的聚合函数值的改进来奖励操作员[17]，[37]。在另一个基于分解的MOEA中，奖励是基于其邻域中后代解决方案的帕累托优势和拥挤状态来定义的[38]。在最近提出的用于解决大规模MOP的MOEA中，整个人群的超容量改进被视为奖励[39]。
相反，算子的选择更为棘手。如果根据最近的奖励直接选择算子，则奖励较高的算子将获得比其他算子更高的优先级，并且这种积极的反馈将进一步提高这些算子的奖励。为了减少贪婪以及陷入局部最优的概率，已经提出了一些算子选择策略，以在之间取得平衡。

选择算子的次数由其奖励与所有算子的奖励之和的比率确定。
在[41]、[42]中，根据算子的奖励，通过轮盘赌f选择来选择算子。在[17]中，采用了置信上限算法来选择算子，这对于处理多臂老虎机问题非常有效[28]。在[37]中，为每个算子建立了贝塔分布，并通过伯努利-汤普森采样进行更新，然后根据从分布中采样的奖励来选择算子。在[43]中，优化过程分为几个阶段，首先选择所有算子以获得他们的奖励，然后在每个阶段只选择最佳算子。
此外，还采用了许多其他策略来根据算子的奖励来选择操作员，例如动态多臂老虎机算法[16]、模糊推理系统[44]、AdaBoost[45]和自适应追捕[39]。
credit assignment 信用分配策略
探索和开发的两难困境在于信贷分配和算子选择。首先，由于试验次数有限和算子的随机性，**信用分配策略可能会不准确地奖励算子。**其次，算子选择策略根据其历史回报来选择算子，但在前几代算子表现良好总在未来几代可能无效。为了缓解这种困境，本工作旨在使用深度强化学习来辅助学分分配和算子选择，其中强化学习的一些基本概念将在下一小节中首先介绍。

C、强化学习
与进化计算为静态问题寻找最优解相比，强化学习旨在为有限或无限数量的动态问题找到最优解，涉及智能主体在动态环境中应该如何采取行动[46]。强化学习已被MOEA用于环境选择[47]、后代生成[48]和变化跟踪[49]，但尚未应用于MOEA的算子选择。在[50]中，一种简单的强化学习方法被应用于单目标优化的算子选择，而它与本工作中使用的深度强化学习方法完全不同。

强化学习的目标是学习在每个状态下采取行动的策略π，其中该行动使当前状态下的预期累积奖励最大化[51]。在每次迭代t时，angent根据策略在当前状态st采取动作at，然后环境接收该动作，生成奖励rt，并转移到下一状态st+1。该过程重复直到满足终端条件，并且元组（st，at，rt，st+1）被记录为样本以训练代理。
深度强化学习目前包括基于策略的方法和基于价值的方法。
基于策略的方法通过独立函数逼近器直接学习随机策略来处理连续动作空间[52]。在这种情况下，策略是一个条件概率分布π=p（at | st；θ），表示在状态st下使用策略参数θ采取行动的概率。
利用策略梯度为了学习最优策略参数，代理可以通过从π中采样来在给定状态下采取行动[53]。

基于值的方法通过近似动作值函数来处理离散动作空间，该函数计算在状态st采取动作的预期累积奖励（即Q值）[54]。
更具体地说，作用值函数定义为Q（st，at）=E[Rt|st，at]，其中Rt=∑∞ i=tγi−tri是未来奖励和γ的贴现和∈ [0，1]是贴现系数。一旦近似了作用值函数，代理就可以在给定状态s下采取Q值最大的作用，即π（s）=argmaxa∈AQ（s，a）。

经典Qlearing通过Q表[55]近似动作值函数，其中每个网格存储给定状态的动作的Q值。虽然Q表只能处理离散状态空间，但深度Q网络（DQN）使用深度神经网络来近似具有连续状态空间的动作值函数[56]，其中神经网络的输入和输出分别是状态和所有动作的Q值。(深度Q网络)DQN将获得的元组存储在经验重放池中以形成训练集，并将采取的动作与神经网络训练交织。神经网络使用损失的梯度下降进行训练

其中T是训练集，Q（st，at）是具有输入向量st的神经网络的第n个输出神经元，qt是状态st下的Q值：在st状态是采取at所获得的的期待奖励值是Q（st，at）

值得注意的是，预期输出qt不仅包含当前奖励rt，还包含最大奖励，采取下一行动的Q（st+1，A′）。由于公式的递归性质，qt可以表示未来的最大累积奖励。在所提出的算子选择方法中，将解的决策变量视为状态，将算子的指标视为动作。由于状态是连续的，动作是离散的，因此在所提出的方法中使用DQN是可取的。在下一节中，将详细介绍拟议的方法以及MOEA。

建议的方法

A. The Proposed Reinforcement Learning Based Operator Selection Method

A、提出的基于强化学习的算子选择方法

使用强化学习的核心问题是确定给定任务的奖励和状态，以便agent可以使用深度神经网络来学习状态和奖励之间的关系。为了考虑子解带来的适应度改进的收敛性和多样性，所提出的方法采用了基于分解的MOEA框架[36]，并因此计算了聚合函数值的改进。
这里采用切比雪夫方法作为聚合函数：
w是解决方案x的权重向量，z是由种群中的最小目标值组成的理想点。

生成子解x后，将其与父解邻域中的所有解进行比较，并通过以下公式计算其对邻域y的适应度改进

w是y的权重向量，请注意，子解最多可以替换邻域中的nr个解，因此，其邻域适应度改进NFIx被进一步计算为被子解替换的至多nr个解的适应度改进之和。
此外，所提出的方法通过将最近的元组（op，NFIx）保存在先进先出队列R中来考虑历史周期中的NFI，其中NFIx是由算子op生成的子解x的邻域适应度改进。因此，算子op的奖励可以基于其保存在R中的元组来计算

也就是说，算子的奖励被设置为其队列中的最大NFI值。其基本思想是，人们认为，罕见但大的改进比频繁而小的改进更重要[57]。因此，最大而非平均的NFI值被视为奖励，并且每个算子的奖励可以在一段时间内保持稳定。算法1总结了所提出的信用分配策略的伪码。

一旦生成子代解，在计算奖励之后，元组（{p，w}，op，rewardop，{x，w}）被保存在另一个队列T中用于体验重放，其中p是生成x的主父代，w是相应的权重向量。也就是说，状态由解的决策变量及其权重向量（即，s=（p1，…，pD，w1，……，wM））组成，动作是算子（即，a=op）。然后使用T通过（2）–（3）训练深度神经网络Q（s，a），

神经网络可以用于将来选择算子。在基于父p生成子解之前，每个算子的Q值由输入{p，w}的神经网络计算，并通过轮盘选择根据它们的Q值选择一个算子。
值得注意的是，一旦算子不存在于体验重放池T中，就不能再选择该算子；在这种情况下，算子将被强制选择，而不是轮盘选择。
算法2中给出了所提出的算子选择策略的伪码。

根据所提出方法的描述，与现有方法中的策略相比，其信用分配策略和算子选择策略具有以下优势：
1）大致上，现有的信贷分配策略将奖励qt设置为rt+γqt−1考虑了历史奖励，而所提出的策略将qt设置为rt+γqt+1，考虑了未来奖励。由于选定的算子预计将在未来而不是过去有效，因此建议的策略更具前景。当然，在优化过程中，未来的奖励是未知的，因此它们是通过训练深度神经网络Q（s，a）来推导的。

2）现有的算子选择策略对所有解上的算子进行同等奖励，而所提出的策略通过将解及其权重向量馈送到神经网络来计算算子的Q值。也就是说，所提出的策略考虑了每个解决方案的特点，并可以为不同的父母建议不同的运算子，这为算子选择提供了一种更精细的策略。

Procedure of the Proposed MOEA/D-DQN
然后基于所提出的算子选择方法建立MOEA。所提出的MOEA，称为MOEA/DDQN，采用了基于分解的MOEA框架，并进行了动态资源分配，该框架已被证明在挑战性MOP[26]上具有很高的性能。
如图2所示

the MOEA interacts with the reinforcement learning agent twice a generation
a生成：在生成子代解之前，angent根据神经网络为MOEA选择一个操作符（即动作）；生成子代解决方案后，MOEA将解决方案（即状态）和适应度改进（即奖励）发送给agent，用于训练神经网络。

算法3详细说明了拟议MOEA的过程。遵循基于分解的MOEA的一般过程，首先随机初始化种群（第1行），并生成相同数量的均匀分布权重向量（第2行）。权重向量由Das和Dennis方法[58]生成，如果种群大小设置为任意数，也可以采用混合均匀设计[58]。

然后，确定每个权重向量的邻域（第3行），并将它们的效用设置为1（第4行），
然后初始化变量z∗,Q、 R、T（第5-8行）。
在每一代，交配池首先由M个极值解（即，其权重向量为（1，0，…，0）、（0，1，…，1）、…，（0，0，…，1））
和|P|/5−M个解决方案由10个锦标赛根据其效用选择（第10-11行）。

然后，交配池中的每个解p被视为主要亲本，从p的邻居或整个种群中随机选择的解被视为其他亲本（第12-16行）。
然后，由神经网络Q（第17-18行）选择的算子使用父母来生成后代解。
子代解用于更新理想点（第19行）和p的邻域中最多nr个解（第20–29行）。

根据后代解决方案带来的适应度改进，计算奖励（第30行）并训练神经网络（第31–34行）。每50代后，每个解p的效用πp更新为

其中Δp表示最近50代中聚合函数值的总改进：

其中w是p的权重向量，p′是50代前p的祖先。
In the proposed MOEA/D-DQN, four effective variation operators are adopted as candidate operators, including simulated binary crossover [59], the crossover operator in [60], and two differential evolution operators [22]. To be specific, the simulated binary crossover is the most popular crossover operator in genetic algorithm for continuous optimization, which is good at handling multimodal landscapes:

在提出的MOEA/D-DQN中，采用4个有效变分算子作为候选算子，包括模拟二元交叉算子[59]、[60]中的交叉算子[22]和两个差分进化算子[22]。具体而言，模拟二元交叉是遗传算法中最常用的连续优化交叉算子，擅长处理多模态景观:

其中μ是在[0,1]中采样的均匀分布随机值，η是预定义参数。[60]中的交叉算子擅长处理非线性可变连杆：

其中r1、r2是在[0,1]中采样的均匀分布随机值，gen是当前世代数，maxgen是最大世代数。此外，微分进化算子对于处理复杂的可变连杆机构也是有效的，其中DE/rand/1定义为

其中F、CR是预定义参数，r是在[0,1]中采样的均匀分布随机值。请注意，应该为两个交叉算子选择两个父代，而DE/rand/1和DE/rand/2分别需要三个和五个父代来生成子代解。此外，一旦生成子代解，就执行多项式变异[61]，这可以进一步提高多目标优化的性能[6]，[7]：

其中，（15）显示在下一页底部，其中ld是第d个决策变量的下界，ud是第d决策变量的上界，μ是在[0,1]中采样的均匀分布随机值，η是预定义参数。
最后，由于神经网络Q是在生成每个子代解之后训练的，因此（2）中的损失与（3）中的估计输出之间的强相关性使得很难收敛[56]。
因此，所提出的方法实际上使用了两个神经网络Q和ˆQ，而不是单个神经网络。
主网络Q通常被训练，而目标网络ˆQ用于估计（3）中的输出。目标网络不被训练，而是在每十个训练步骤之后直接从主网络复制权重。两个神经网络的使用已被证明在强化学习中是有效的[56]，[62]。

Computational Complexity of MOEA/D-DQN
According to Algorithm 3, the time complexity of the proposed MOEA/D-DQN is mainly determined by five steps in generating each offspring solution, i.e., operator selection, offspring generation, population update, credit assignment, and neural network training.
根据算法3，所提出的MOEA/D-DQN的时间复杂度主要由生成每个后代解的5个步骤决定，即算子选择、后代生成、种群更新、信用分配和神经网络训练。
对于神经网络的演绎过程，算子选择的时间复杂度为O（D2），其中D是指示层大小的决策变量的数量。对于所有变异算子，后代生成的时间复杂度为O（D）。种群更新的时间复杂度为O（M），用于计算聚集函数。信用分配的时间复杂度为O（N），用于计算邻域适应度改进。对于反向传播过程，神经网络训练的时间复杂度为O（D2）。因此，MOEA/D-DQN在一代中的总时间复杂度为O（ND2）。

实验设置
为了验证所提出的MOEA/DDQN的性能，将其与实验中的几种经典或最新MOEA进行了比较，包括MOEA/D[36]、MOEA/D-DRA[26]、IM-MOEA[63]、SMEA[64]、MOEA/DFRRMAB[17]和MOEA/DYTS[37]。
MOEA/D是一种经典的基于分解的MOEA，而MOEA/D-DRA是基于动态资源分配的MOEA/D的变体。IM-MOEA通过基于高斯过程的逆模型生成后代，SMEA通过基于自组织映射的交配选择的差异进化生成后代。MOEA/D-FRRMAB和MOEA/D-DYTS是两种具有自适应算子选择的MOEA，它们分别通过基于适应度秩的多臂强盗方法和动态汤普森抽样来选择算子。简而言之，所提出的方法的框架与比较的MOEA相同，而MOEA/D-DQN的主要贡献在于基于强化学习的算子选择方法。

比较的MOEA的所有参数均按照其原始论文中的建议进行设置，实验结果收集自PlatEMO[65]。比较的MOEA的详细参数设置如表I所示。对于MOEA/D-DQN中的神经网络，采用七层全连接神经网络，其中输入层大小为D+M（即决策变量数和目标数之和），输出层大小与候选算子数相同，五个隐藏层的大小分别为128、256、128、64和32。Adam[66]以每次一个历元0.01的学习率训练神经网络，其中R的大小与种群大小相同，T的大小为512。
The batch size is set to 16, which means that each time 16 tuples ({p, w}, op, rewardop, {x, w}) are randomly selected from T and used as the training samples, where p is the main parent generating offspring x, w is the corresponding weight vector, op is the selected operator, and rewardop is the reward calculated by (6).
batch大小设为16，即每次从T中随机选取16个元组({p, w}， op, rewardop， {x, w})作为训练样本，其中p为生成子代x的主父元组，w为对应的权值向量，op为所选算子，rewardop为(6)计算的报酬。

实验涉及四个测试套件，包括ZDT[67]、DTLZ[68]、WFG[69]和UF[70]，共有31个基准MOP。对于ZDT和UF问题，除ZDT4和ZDT6具有10个决策变量和UF8–UF10具有3个目标外，决策变量的数量设置为30，目标的数量设置2。对于DTLZ和WFG问题，目标数设置为3，DTLZ2–DTLZ6和WFG1–WFG9的决策变量数设置为12，DTLZ 1的决策变量为7，而DTLZ7的决策变量数目设置为22。此外，实验中还涉及神经网络训练问题，其定义见[7]。

Three datasets taken from the UCI machine learning repository [71] are adopted for training, resulting in three MOPs (denoted as NN1–NN3) with 321, 401, and 1241 decision variables.
采用取自UCI机器学习知识库[71]的三个数据集进行训练，得到三个MOPs(记为NN1 NN3)，其中包含321、401和1241个决策变量。
采用反向代际距离（IGD）[72]来评估基准MOP的所获得的解，该解是根据[58]中建议的方法采样的大约10000个参考点计算的。采用超体积（HV）[73]来评估所获得的神经网络训练解决方案，其中参考点设置为（1，1）。记录各MOEA在各MOP上获得的30次独立运行的指标值的平均值和标准偏差。此外，使用显著性水平为0.05的Wilcoxon秩和检验进行统计分析[74]。
Comparison Between MOEA/D-DQN and Other MOEAs
表II列出了四个测试套件的七个比较MOEA的统计结果。总的来说，建议的MOEA/D-DQN在34个MOP中的18个上表现出最佳性能，其次是MOEA/D、SMEA、IM-MOEA、MOEA/DDRA、MOEA/D-FRMAB和MOEA/D-DYTS，分别获得6、4、3、1、1和1个最佳结果。对于使用单个变量算子的MOEA/D、MOEA/D-DRA、IM-MOEA和SMEA，可以发现它们在不同的测试套件上表现出截然不同的性能；例如，基于模拟二进制交叉的MOEA/D在WFG问题上表现良好，而基于高斯过程的IM-MOEA在UF问题上表现出色。
By contrast, MOEA/D-DQN strikes a balance between the performance on different test suites, which is significantly better than the four MOEAs on most MOPs.
相比之下，MOEA/D-DQN在不同测试套件上的性能达到了平衡，它明显优于大多数MOPs上的四个MOEA。对于基于自适应算子选择的MOEA/D-FRMAB和MOEA/D-DYTS，它们的性能也不如所提出的MOEA-D-DQN，这验证了所提出的算子选择方法的优越性。
为了进一步分析，图。图3和图4用七个比较MOEA在ZDT1和UF1上获得的IGD中值绘制了种群。可以发现，MOEA/D和IM-MOEA在ZDT2上比在UF1上具有更好的收敛性能，这意味着它们的变异算子善于处理ZDT1的单峰景观，但在处理UF1的复杂可变链接方面效果较差。相反，MOEA/D-DRA、MOEA/D-FRRMAB和MOEA/DDYTS在UF1上的收敛性能优于ZDT1，因为差分进化算子擅长处理复杂的可变连杆，但在简单的情况下收敛速度较慢。与上述MOEA相比，所提出的MOEA/D-DQN在ZDT1和UF1上都具有良好的收敛性能，因为它可以有效地选择合适的运算符来处理不同的MOP。尽管MOEA/D-DQN在ZDT1上与MOEA/D一样好，在UF1上与MOEA/D-DRA和MOEA/D-FRRMAB一样好，但从图5可以看出，MOEA/DDQN比所有其他MOEA具有更快的收敛速度，这意味着多个算子的集成和基于强化学习的算子选择可以提高MOEA的性能。
In addition, Fig. 6 shows the mean IGD values obtained by the compared MOEAs on ZDT1 and UF1 with more decision variables, where the number of function evaluations is also set proportionally to the number of decision variables.
此外，图6为ZDT1和UF1上比较moea在决策变量较多时的平均IGD值，其中函数评估的数量也与决策变量的数量成比例设置。可以发现，MOEA/D-DQN的性能随着决策变量数量的增加而略有波动，并且在除具有50个和150个决策变量的UF1之外的所有测试实例上都优于比较的MOEA。因此，拟议的MOEA对不同类型MOP的有效性得到了证明。
为了研究比较MOEA的效率，表III给出了比较MOEA获得的运行时间。
It can be found that the single-operator based MOEA/D,MOEA/D-DRA, and IM-MOEA are more efficient than the multi-operator based MOEA/D-FRRMAB, MOEA/D-DYTS, and MOEA/D-DQN.
结果表明，基于单算子的MOEA/D、MOEA/D- dra和IM-MOEA比基于多算子的MOEA/D- frrmab、MOEA/D- dyts和MOEA/D- dqn效率更高。

此外，SMEA由于其基于高压的环境选择而效率低下。简言之，所提出的MOEA/D-DQN的效率类似于具有自适应算子选择的现有MOEA。

MOEA/D-DQN的进一步研究
To further verify the effectiveness of the proposed operator selection method, MOEA/D-DQN is compared to its variants with a single operator, so that the influence brought by the difference between other strategies can be totally eliminated.
为了进一步验证所提出的算子选择方法的有效性，我们将MOEA/D-DQN与单一算子的变体进行比较，从而完全消除其他策略之间的差异带来的影响。
表IV给出了MOEA/D-DQN及其四个变体的统计结果，其中OP1表示模拟二进制交叉，OP2表示MOEA/D-M2M中的交叉算子，OP3表示DE/rand/1，OP4表示DE/rand/2。很明显，所提出的MOEA/DDQN仍然表现出最佳的总体性能，并且在不同的测试套件上与不同的变体具有竞争力。例如，在ZDT和WFG问题上，MOEA/D-DQN与MOEA/D-OP1竞争，在UF问题上与MOEA-D-OP3和MOEA/D-PP4竞争。这些观察结果与现有研究一致，其中模拟二元交叉更适合于没有可变连杆的ZDT和WFG问题，而微分进化更适合于具有复杂可变连杆的UF问题[25]，[75]。
此外，图7描述了在ZDT1和UF1的优化过程中，MOEA/D-DQN选择的运算符的比率。可以发现，MOEA-D-DQN更喜欢ZDT1的OP1，而更喜欢UF1的OP1、OP2和OP3，其他运算符的选择概率也很小。也就是说，MOEA/D-DQN不选择单个运算符，而是集合多个运算符来解决每个问题。
Although a single operator can lead to satisfactory performance on specific problems (e.g., differential evolution on UF problems), as evidenced by Table IV (e.g., the results on UF problems), using reinforcement learning to assemble multiple operators can further improve the performance. In short, the effectiveness of the proposed operator selection method is confirmed.
虽然单个算子可以在特定问题上获得令人满意的性能(如UF问题上的差分进化)，如表四所示(如UF问题上的结果)，但使用强化学习将多个算子组合在一起可以进一步提高性能。总之，验证了所提算子选择方法的有效性。
最后，研究了MOEA/D中使用的邻域大小对MOEA/D-DQN性能的影响。为此，图8显示了MOEA/D-DQN在ZDT1和UF1上使用不同邻域大小获得的平均IGD值。可以观察到，当邻域大小大于15时，获得的IGD值非常相似，这意味着MOEA/DDQN的性能对相对较大的邻域大小不敏感，将邻域大小设置为20是合理的。
结论
本文提出了一种基于强化学习的自适应算子选择方法，用于进化多目标优化。通过使用深度神经网络学习优化过程中候选算子的决策变量和Q值（即累积适应度改进）之间的关系，所提出的方法可以建议有希望的算子为不同的MOP进化种群。所提出的方法已嵌入到基于分解的MOEA中，该方法在各种基准问题上表现出与最先进的MOEA和运营商选择方法相比的竞争力
Besides, the experimental results have also verified that different operators are suitable for different types of problems, and the proposed method can generally select the most suitable one for each problem.
此外，实验结果也验证了不同的算子适用于不同类型的问题，所提方法一般可以为每个问题选择最适合的算子。
这项工作显示了强化学习在帮助进化算法解决静态优化问题方面的光明前景。虽然所提出的方法使用离散动作空间，旨在选择具有预定义参数的合适操作器，但合理的做法是额外考虑连续动作空间，以在将来自适应地调整操作器的参数。此外，由于所提出的方法仅将单个解决方案的决策变量视为一种状态，因此非常需要涉及更多关于整个群体的信息，从而可以更准确地选择不同类型问题的合适算子。

基于深度强化学习的进化多目标优化自适应算子选择相关推荐

基于深度强化学习的组合优化方法在工业应用中的实践
<统筹方法平话>中有一个例子曾被收录到语文课本中,讲"烧水泡茶"有五道工序:1.烧开水,2.洗茶壶,3.洗茶杯,4.拿茶叶,5.泡茶,其中前四道工序是泡茶的前提,且各道 ...
基于深度强化学习的长期推荐系统
A deep reinforcement learning based long-term recommender system 基于深度强化学习的长期推荐系统 ABSTRACT 推荐系统旨在最大化长 ...
谣言止于智者：基于深度强化学习的谣言早期检测模型
「论文访谈间」是由 PaperWeekly 和中国中文信息学会社会媒体处理专委会(SMP)联合发起的论文报道栏目,旨在让国内优质论文得到更多关注和认可. 谣言一般是指未经核实的陈述或说明,它往往与某一 ...
基于深度强化学习的区域化视觉导航方法
基于深度强化学习的区域化视觉导航方法人工智能技术与咨询本文来自<上海交通大学学报>,作者李鹏等在环境中高效导航是智能行为的基础,也是机器人控制领域研究的热点之一.实现自主导航 ...
基于深度强化学习的电子商务平台动态定价
目录 1. 论文背景 2. 核心框架 3. 方法介绍 3.1 问题描述 3.2 定价动作模型 3.3 预训练 3.4 离线评估 4. 实验效果 1. 论文背景 Dynamic Pricing on E ...
基于深度强化学习的智能船舶航迹跟踪控制
基于深度强化学习的智能船舶航迹跟踪控制人工智能技术与咨询昨天本文来自<中国舰船研究> ,作者祝亢等关注微信公众号:人工智能技术与咨询.了解更多咨询! 0. 引言目前,国内外 ...
商简智能学术成果|基于深度强化学习的联想电脑制造调度（Lenovo Schedules Laptop Manufacturing Using Deep Reinforcement Learning）
获取更多资讯,赶快关注上面的公众号吧! 文章目录摘要背景介绍传统方法无法解决现有挑战解决方案提升模型表达能力针对复杂约束的掩码机制快速模型训练配置多目标调度优化结论本篇论文作为 ...
论文分享：基于深度强化学习的无人机三维导航
论文题目: Double Critic Deep Reinforcement Learning for Mapless 3D Navigation of Unmanned Aerial Vehicle ...
基于深度强化学习的机器人运动控制研究进展 | 无模型强化学习 | 元学习
1.基于深度强化学习的机器人运动控制研究进展 1.1 深度强化学习 1.1.1 强化学习简介: 强化学习(Reinforcement Learning, RL)利用试错机制与环境进行交互,旨在通过最大 ...

基于深度强化学习的进化多目标优化自适应算子选择

A. The Proposed Reinforcement Learning Based Operator Selection Method

基于深度强化学习的进化多目标优化自适应算子选择相关推荐

最新文章

热门文章