来源:DeepHub IMBA
本文约2200字,建议阅读5分钟
本文为你介绍强化学习和遗传算法不同之处,适用于那些情况。

强化学习(Reinforcement Learning)和遗传算法(Genetic Algorithm)都是受自然启发的AI方法,它们有何不同?更重要的是,在哪些情况下,其中一种会比另一种更受青睐?”因此,今天我们将尝试解释这些原因。

他们是什么... ?

在我们开始比较之前,让我们更好地理解这些是什么……

强化学习(RL)

强化学习是训练机器学习模型以做出一系列决策。它被构造为与环境交互的代理。

在强化学习中,人工智能 (AI) 面临类似游戏的情况(即模拟)。人工智能通过反复试验来提出问题的解决方案。智能体缓慢而稳定地学习在不确定的、潜在复杂的环境中实现目标,但我们不能指望智能体盲目地偶然发现完美的解决方案。这是交互发挥作用的地方,为代理提供了环境状态,这成为代理采取行动的输入/基础。一个动作首先向代理提供奖励(注意,根据问题的适应度函数,奖励可以是正的也可以是负的),基于此奖励,代理内部的策略(ML 模型)适应/学习其次,它会影响环境并改变它的状态,这意味着下一个循环的输入会发生变化。

这个循环一直持续到创建一个最佳代理。这个循环试图复制我们在自然界中看到的生物体在其生命周期中的学习循环。在大多数情况下,环境会在一定数量的循环后或有条件地重置。注意,可以同时运行多个代理以更快地获得解决方案,但所有代理都是独立运行的。

遗传算法(GA)

遗传算法是一种搜索元启发式算法,其灵感来自查尔斯达尔文的自然进化理论。该算法反映了自然选择的过程,即选择最适合的个体进行繁殖以产生下一代的后代。

遗传算法周期有6个主要阶段。

生成初始种群:一组“个体”被称为群体,其中每个个体的特征是一组以二进制表示的基因(即 0 或 1)。由字符串/序列表示的一组基因称为染色体。我们开始的人口称为初始人口。

评估:适应度函数是一个系统,它确定一个人的健康程度(一个人与其他人竞争的能力)。它为每个人提供了一个适应度分数,这有助于量化表现。该函数在总体表现上执行,以量化和比较个体的表现。

选择:挑选“最适合的”(基于评估阶段生成的适应度分数)个体以产生下一代(即下一个评估和繁殖周期的新种群)的过程。没有基于适应度分数的严格截止,但选择更多地基于概率(适应度分数越高,被选中的概率越高),并为下一阶段选择一对。

交叉:混合选择的一对个体的基因以产生一对新个体的过程称为交叉或遗传操作。这个过程继续创造一个新的人口。交叉可以用不同的方法进行,例如:单点交叉、两点交叉、顺序交叉、部分映射交叉 、循环交叉。

突变:在某些新个体中,他们的一些基因可能会以低随机概率发生突变。这意味着染色体(位序列)中的某些基因(位)可以改变(翻转)。突变有助于保持种群内的多样性并防止过早收敛。终止:当种群收敛时,算法终止。这里的收敛表示个体的遗传结构不再有显着差异。终止也可能在一定数量的循环后发生,这通常会导致多个收敛点。

如何进行比较?

工作原理

根据定义,遗传算法是一种跨生命的算法,这意味着该方法需要个体“死亡”才能前进。RL旨在成为一种生命内学习算法,最近开发的许多方法都针对持续学习和“安全RL”的问题。

从根本上讲,这两种方法的操作原则是不同的。RL使用马尔可夫决策过程,而遗传算法主要基于启发式。RL中的值函数更新是基于梯度的更新,而GAs通常不使用这种梯度。

他们适合的问题

RL是一种机器学习,它关注的是一种特定类型的优化问题,即寻找最大化回报的策略(策略),代理以时间步骤与环境进行交互。GAs是一种自学习算法,可以应用于任何优化问题,其中你可以编码解决方案,定义一个适应度函数来比较解决方案,你可以随机地改变这些解决方案。从本质上讲,GAs可以应用于几乎任何优化问题。原则上,您可以使用GAs来查找策略,只要您能够将它们与适应度函数进行比较。

这并不意味着GA更好,这只是意味着如果没有更好的解决方案,GA将是你的选择。而RL对于需要在环境中进行顺序决策的问题是一个强有力的方案。

缺点

遗传算法:需要较少的关于问题的信息,但设计适应度函数并获得正确的表示和操作可能是非常复杂和困难的。它在计算上也很昂贵。

强化学习:过多的强化学习会导致状态过载,从而降低结果。这种算法不适用于简单问题的求解。该算法需要大量的数据和大量的计算。维数的诅咒限制了对真实物理系统的强化学习。

怎么使用

正如我们已经讨论过的,除了根本的区别之外,这两种方法都有各自的用途和缺点。虽然GA的用途更广泛,但是定义一个适合问题的适应度函数以及正确的表示和操作类型是非常困难的。而RL最适合解决需要连续决策的问题,但需要更多的数据,当问题的维度较高时就不是很好。基于学习的早期阶段,RL模型也倾向于变得狭隘。

考虑到这一点,

  1. 由于明显的原因,当没有其他解决方案适合这种模式时,GA是最受欢迎的;

  2. 对于更简单的问题,大多数时候,RL是有效的,但通常比遗传算法更耗时,而且遗传算法的适应度函数和表示更容易编写,所以RL或遗传算法都可以根据问题工作;

  3. 当我们有中等程度的复杂性和高可用数据时,RL是首选;

  4. 对于具有更高复杂性的问题,GA和RL都需要花费大量时间,需要复杂的表示,或者受到需要处理的维数的限制。

在这种情况下,两者的结合比任何单独的都更可取。

二者结合

是的,结合遗传算法和强化学习是可能的,因为这两种方法不是相互排斥的。就像它们源于自然的两个原则一样,这些方法也可以共存。

强化学习使代理能够基于奖励功能做出决策。然而,在学习过程中,学习算法参数值的选择会显著影响整个学习过程。使用遗传算法找到学习算法中使用的参数值,比如深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)结合后见经验回放(Hindsight Experience Replay, HER),以帮助加快学习代理。导致性能更好,比原来的算法更快。

另一种方法是采用强化学习的部分,如Agent-Environment关系,并运行多个可以交叉和变异的代理,类似于遗传算法。

编辑:于腾凯

校对:龚力

强化学习vs遗传算法-人工智能在模拟领域的应用相关推荐

  1. 强化学习图鉴|人工智能新兴子领域,分布式强化学习是AI技术未来大规模实用化的关键?

    引言  分布式强化学习(Distributed RL)是深度强化学习走向大规模应用,解决复杂决策空间和长期规划问题的必经之路. 为了解决像星际争霸2(SC2)[1]和DOTA2[2]这样超大规模的决策 ...

  2. 集成的分层强化学习,让人工智能在解决智能问题时表现得更聪明

    本文约2700字,建议阅读6分钟 本文概述了分层问题解决的认知基础,以及如何在当前的 HRL 架构中实现这些基础. 根据认知心理学的资料,生物主体复杂问题解决行为的发展,依赖于分层认知机制.分层强化学 ...

  3. 因果推断、强化学习与理性人工智能奇点

    近年来,人工智能技术呈现加速发展的趋势,引发社会对其产生"智能爆炸",甚至超越人类,产生诸如隐私安全.数据独裁.算法偏见.机器权利等科技挑战与伦理困境,并可能对人类社会秩序造成严重 ...

  4. 引入秘密武器强化学习,发掘GAN在NLP领域的潜力

    1.基础:文本生成模型的标准框架 文本生成(Text Generation)通过 机器学习 + 自然语言处理 技术尝试使AI具有人类水平的语言表达能力,从一定程度上能够反应现今自然语言处理的发展水平. ...

  5. 人工智能强化学习汽车标定领域探讨

    人工智能强化学习汽车标定方案 汽车标定领域尤其是柴油车的排放标定,需要花费大量的测试时间和人力,测试成本比较高,非常拖延新车型的上市时间. 随着国六标准的实施,RDE测试也在不断提高要求.通过强化学习 ...

  6. DeepMind 的新强化学习系统,是迈向通用人工智能的一步吗?

    作者:Ben Dickson 来源:数据实战派 前言 尽管已经掌握围棋.星际争霸 2 和其他游戏,深度强化学习模型的主要挑战之一是,它们无法将其能力泛化到训练领域之外.这种限制使得将这些系统在现实世界 ...

  7. 人工智能 java 坦克机器人系列: 强化学习_人工智能 Java 坦克机器人系列: 强化学习 | 学步园...

    本文中,我们将使用强化学习来实现一个机器人.使用强化学习能创建一个自适应的战斗机器人.这个机器人能在战斗中根据环境取得最好的策略,并尽力使战斗行为最佳.并在此过程中不断学习以完善自身不足. Roboc ...

  8. 人工智能 java 坦克机器人系列: 强化学习_Java坦克机器人系列强化学习

    <Java坦克机器人系列强化学习>由会员分享,可在线阅读,更多相关<Java坦克机器人系列强化学习(13页珍藏版)>请在人人文库网上搜索. 1.Java 坦克机器人系列 强化学 ...

  9. 人工智能 java 坦克机器人系列: 强化学习_人工智能 Java 坦克机器人系列: 强化学习...

    人工智能 Java 坦克机器人系列: 强化学习 发表于:2007-05-24来源:作者:点击数: 本文中,我们将使用强化学习来实现一个机器人.使用强化学习能创建一个自适应的战斗机器人.这个机器人能在战 ...

最新文章

  1. IT从业人员必看的10个论坛
  2. vim 用次数做简单的算术运算(笔记)
  3. 机器学习面试题(part3)
  4. android动画笔记二
  5. js+ asp.Net ajax开发163邮箱效果(列表底色、多选拖动等)--checkBox多选
  6. LeetCode: Maximum Subarray
  7. oracle日志不应用,dg报ORA-600日志不能应用
  8. python+opencv打开摄像头、拍摄指定次数的照片_python+openCV调用摄像头拍摄和处理图片的实现...
  9. RedHat系统的Yum安装
  10. showdoc修改json转表格格式
  11. 技术员 Ghost Win 10(X86/X64)企业加强版201804
  12. 关于openlaeyrs获取谷歌卫星地图的无偏瓦片
  13. Google Play开发者账号注册教程(new)
  14. 福建2021高考成绩查询是什么时间,2021年福建高考成绩排名及成绩公布时间什么时候出来...
  15. 00后php团队,00后学霸团队自制视频脱口秀走红:不想做网红
  16. 社交网络的发展及趋势
  17. 蓝牙核心技术概述(一):蓝牙概述
  18. python控制相机自动拍照_如何让VPython中的对象自动移动到相机中?
  19. Python攻关之模块(1)
  20. 亚甲基蓝在胃肠道恶性肿瘤淋巴结检获中应用价值的Meta分析

热门文章

  1. 从键盘输入的十个整数中的最大数和最小数
  2. 搜狗输入法电脑版SougouPhoneService占用adb进程的问题
  3. 转载:PHP JSON_ENCODE 不编码中文汉字的方法
  4. 《嵌入式 Linux应用程序开发标准教程(第2版)》——第1章 Linux快速入门 1.1 嵌入式Linux基础...
  5. HttpMessageConverter转换类型
  6. 主流浏览器js 引擎内核市场份额attialx总结vOa9
  7. [深入理解Android卷一全文-第九章]深入理解Vold和Rild
  8. oracle 11g RAC Grid Infrastructure
  9. Android Animation学习(五) ApiDemos解析:容器布局动画 LayoutTransition
  10. asp.net利用Web Service实现短信发送致手机