一、前言

深度强化学习 是目前机器学习领域中重要的研究分支之一，它可以通过直接与环境进行交互实现 端到端 的学习，对 高维度和大规模的问题有着很好的解决能力 ．虽然深度强化学习已经取得了瞩目的成果，但其仍 面临着对环境探索能力不足、鲁棒性差、容易受到由欺骗性奖励导致的欺骗性梯度影响等问题 ．

进化算法 普遍具有较好的 全局搜索能力 、 良好的鲁棒性和并行性等优点 ，因此将进化算法与深度强化学习结合用于弥补深度强化学习不足的方法成为了当前研究的热点。在强化学习中，也可以使用进化算法选择其超参数或优势个体。

进化算法结合到深度强化学习算法之中时，进化算法中的 个体通常作为深度强化中的 策略网络 ， 种群 则是由多个策略网络所组成的 网络集合 ，而进化算法中对个体的交叉与变异操作则对应策略网络参数的交叉与变异，在深度强化学习中评估某个个体的策略网络的方法是让其与环境进行交互，并将交互一回合所获得的 累计 回报看作此个体对坏境的 适应度 。

融合两种方法的优点方式可分为进化算法引导策略搜索的强化学习 和 结合进化算法的深度强化学习。

二、进化算法引导策略搜索的强化学习

进化算法的本质是对解空间进行搜索从而得到近似的最优解，因此对于强化学习问题，可以 将智能体的策略看作解空间 ，并将最优策略看作最优解，之后采取类似进化算法的搜索方法进行 策略搜索

1.参数分布搜索方法

策略梯度方法的思想是增加累计奖励较高的策略所出现的概率，这与进化策略的思想类似．我们可以 将策略看作一个分布，通过将累积奖励作为适应度函数，对策略的参数空间进行搜索 ，从而获得更优的策略

2.策略梯度近似方法

可以看作使用进化算法进行参数搜索方法的进一步延伸，其利用强化学习的思想，并使用进化算法得到的 适应度对策略梯度进行近似。

3.策略种群搜索方法

与参数分布搜索方法不同，策略种群搜索方法不在策略的参数空间上进行搜索，而是 直接将 多个策略看作一个种群在策略空间上进行搜索 ，使用适应度函数评估并选择出最好的策略．这类方法将强化学习与进化算法通过耦合度较低的方式结合起来，不仅可以在具有不同策略的种群中选择出具有更好策略的个体，同时还可以用于在具有不同超参数的策略的种群中进行 超参数的搜索。

三、进化算法经验指导的深度强化学习

进化算法所具有的探索能力是探度强化学一直以来所缺乏的，进化算法经验指导的深度强化学习指的是将进化算法中的种群个体与环境交互的经验存储到强化学习的经验池中并供其使用 的一类方法。分为：

1.无反馈的指导

做法是 首先单独 使用进化算法先对环境进行搜索，并将探索到的经验存储下来， 之后对这些经验进行处理和特征提取或直接作为深度强化学习的经验， 最后再使用探度强化学习方法对这些特征或经验和自身与环境交互得到的经验一并进行利用与学习。

2.有反馈的指导

无反馈的进化算法经验指导的深度强化学习将进化算法与深度强化学习过程进行了分离，两者进行了几乎完全的解耦，只通过经验池进行联系，且两个算法过程具有先后顺序。有反馈的进化算法经验指导的深度强化学习 使用了经验池与梯度将两个算法进行关联，其中梯度作为深度强化学习给进化算法提供的反馈信息。同时因为引入了梯度作用，两个算法过程需要交替或并行运行。

Ｋｌｉａｄｋａ等人提出了一种使用进化算法经验指导深度强化学习的框架ＥＲＬ，这是首次将迸化算法的经验作为深度强化学习的指导且同时将深度强化学习的梯度信息引入进化算法的一种方法。

3.进化算法模块嵌入的深度强化学习

是通过进化算法解决深度强化学习中某一子过程的问题，使得进化算法 作为一个关键的组件嵌入 并参与到深度强化学习的过程中从而提升深度强化学习方法的表现，其主要特点是一般不能再以回合为单位来进行种群的评估，同时也不能直接使用累计回报作为进化算法的适应度函数，其适应度函数需要进行特定的设计。

四、总结与展望

（１）进化算法引导策略搜索的强化学习中的参数搜索方法 由于没有引入深度神经网络，因此解决问题的能力较为低下 ．尽管如此，这类方法充分地利用了进化算法的探索能力， 将进化算法直接用于参数空间 的探索这一思想与之后将进化算法用于深度强化学习中的神经网络的参数探索的思想是一致的。

（2）进化算法与其它基于梯度的方法相比其主要优势在于 更为容易进行并行计算，从而大幅度减少时间开销 ．未来可以致力于让此类方法解决更高维度的问题，同时可以将强化学习中的搜索与探索方式引人其中.

（3）与深度强化学习相结合的方法大多数采用了基于 actor-critic 的策略梯度，这是目前深度强化学习领域中最为成熟的算法框架之一。这也使得其能解决大部分 高维离散或者连续动作域的问题 ．对于这类方法的更深人的研究，可以从以下几个方向着手进行

① 进化算法普遍存在着样本效率低下的问题，虽然其探索度较高， 但其本质为全局随机性搜索 ，需要在整个回合结束后才能更新其种群，而深度强化学习在每个回合步中都会得到大量的信息并使用这些信息进行梯度更新，因此进化算法相较于深度强化学习来说 样本效率较低 ．针对进化算法样本效率的问题，可以使用深度强化学习中的 梯度和回合步中的其它信息对其进行指导 ，指引进化算法种群在解空间中的位置与下一代进化的方向．

② 进化算法与深度强化学习的 兼容性较差 ，从表４中可以看出目前进化算法与深度强化学习的组合与耦合方式较为单一，本文认为可以从 探索和利用的角度进一步的分析和探究两者的其它结合方式 ． 平衡强化学习中的探索和利用 一直是强化学习领域中的一个重要问题，在与进化算法结合的深度强化学习中也需要对两者进行更为合理的平衡，如引入新颖度与探索度等一些度量方式在进化算法的探索和深度强化学习的利用中 自动调节 也是未来的方向之一．

③ 目前结合进化算法与深度强化学习的方法中均与最新的同类方法进行了比较， 但很少有进行消融实验并进行进一步分析其算法获得提升的工作 ．进化算法本身为一种启发式算法，其理论基础较为薄弱，且与深度强化学习一样 均不能保证其收敛性 ，因此本文认为 需要加强对算法性能提升的分析与实验 ，从而为进一步的研究打下基础．

目前使用进化算法与深度强化学习结合的方法还较少，将进化计算领域与深度强化学习领域中最新的研究成果应用于结合进化算法的强化学习方法之中还有较大的空间可以发掘。

参考

吕帅,龚晓宇,张正昊,韩帅,张峻伟.结合进化算法的深度强化学习方法研究综述[J].计算机学报,2022,45(07):1478-1499.

进化算法和深度强化学习的关系？相关推荐

openssl 添加自定义算法_GitHub：用PyTorch实现17种深度强化学习算法
[新智元导读]深度强化学习已经在许多领域取得了瞩目的成就,并且仍是各大领域受热捧的方向之一.本文推荐一个用 PyTorch 实现了 17 种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度 R ...
深度强化学习（DRL）简介与常见算法（DQN，DDPG，PPO，TRPO，SAC）分类
简单介绍深度强化学习的基本概念,常见算法.流程及其分类(持续更新中),方便大家更好的理解.应用强化学习算法,更好地解决各自领域面临的前沿问题.欢迎大家留言讨论,共同进步. (PS:如果仅关注算法实现, ...
中科院自动化所介绍深度强化学习进展：从AlphaGo到AlphaGo Zero
来源:德先生概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件.其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果. 深度强化学习进展: 从AlphaGo ...
深度强化学习（DRL）专栏（一）
目录: 1. 引言专栏知识结构从AlphaGo看深度强化学习 2. 强化学习基础知识强化学习问题马尔科夫决策过程最优价值函数和贝尔曼方程 3. 有模型的强化学习方法价值迭代策略迭代 4. ...
【论文笔记】基于深度强化学习的机器人操作行为研究综述
目录摘要关键词 1 引言 2 概念和术语 2.1 深度学习 2.2 强化学习 2.2.1 强化学习算法原理 2.2.2 强化学习算法分类 1. 无模型(model-free)算法和基于模型(mod ...
UC伯克利出品，深度强化学习最新课程已上线
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货主题涵盖深度强化学习领域的方方面面,UC 伯克利 CS 285 2020 秋季课程视频放出. ...
几行代码轻松实现，Tensorlayer 2.0推出深度强化学习基准库
2019-11-11 16:37:04 机器之心发布机器之心编辑部强化学习通过使用奖励函数对智能体的策略进行优化,深度强化学习则将深度神经网络应用于强化学习算法.深度强化学习由于其可扩展性,受到科 ...
ACL 2018 论文解读 | 基于深度强化学习的远程监督关系抽取
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
基于深度强化学习的进化多目标优化自适应算子选择
进化算法(EA)已经成为多目标优化的最有效技术之一,其中已经开发了许多变异算子来处理具有各种困难的问题. 虽然大多数EA始终使用固定的运算符,但为新问题确定最佳EA 是一个劳动密集型过程. 因此,最 ...
学界 | 量化深度强化学习算法的泛化能力
来源:AI 科技评论 OpenAI 近期发布了一个新的训练环境 CoinRun,它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标,而且还可以解决一项长期存在于强化学习中的疑难问题--即使是 ...

进化算法和深度强化学习的关系？

一、前言