https://www.toutiao.com/a6630657888442384909/

接受生物大脑的混乱和电子大脑的秩序

人们对人工智能的追求总是与另一场斗争交织在一起,更富有哲理、更浪漫、更不切实际。因此需要对人类智能有着更好的理解。

虽然目前在监督学习方面的突破似乎是基于优化的硬件、复杂的训练算法和过于复杂的神经网络架构,但强化学习仍然是比较传统陈旧。

这个想法很简单:如果你是一个环境中的学习代理。我们假设你的目标是满足自己的需求(不是吗?),那么你就会采取行动。基于这些行为,环境会以奖励来回应,你可以根据奖励调整行为,以最大限度地提高自己的满意度。

RL有限制吗?已故的日本将棋(shogi)选手村上佐治在面对AlphaGo Zero时发表声明, "计算机打败职业游戏玩家的日子永远不会到来",但这个声明已经遭到现实的打击。

我们花了很长时间才把生物体通过强化和人工智能学习的能力联系起来。早在1948年,图灵就描述了一种享乐-痛苦系统(pleasure-pain system),该系统遵循几十年后建立的强化学习规则。

智力是适应变化的能力——斯蒂芬·霍金斯

由于其简单性,社区的第一次尝试针对西洋双陆棋(Backgammon)游戏,提供少量离散状态和简单规则。如今我们有人工智能代理使用强化学习来玩雅达利(Atari)、我的世界(Minecraft)和翻转煎饼(flip pancakes)游戏。那么,我们是如何做到这一切的呢?简短的回答是深度学习。

本文将探讨更多的答案。它将探索我们几十年来一直使用的强化学习算法背后的思想的起源。我们最近的成功不仅仅是深度神经网络的产物,而且是深层观察历史、结论和理解学习机制的尝试。

强化学习是一个难以追溯的起源领域。它的大部分理论基础都是控制理论家的。马尔可夫决策过程是最优控制问题的离散随机版本,因此几乎所有的强化学习算法都是基于控制理论中推导出的解决方案,这不足为奇。

然而,控制理论提供的背景不足以创建强化学习。我们如今仍然使用的算法需要诸如经典条件学和时间差异学习之类的思想来形成学习的过程。

如果不是少数好奇的生物学家、心理学家和不守规矩的计算机科学家的努力,人工智能社区可能不会拥有实施学习的工具。

我们如何在不可预见的情况下采取行动?如何采纳我们的行为?环境如何影响我们的行为?我们如何改进?如何学习技能?

这是一个反复试验的世界

桑迪克(Thorndike)在1898年做了一个实验,也许对他的猫感到非常生气,或者可能对动物的行为非常好奇。他把猫锁在一个笼子里,并在笼面放了一盘美味的鱼,猫只能通过拉动杠杆逃离笼子,才能吃到鱼。

猫会怎么反应?

没有推理,也没有推理或比较的过程,没有思考事物,没有这两个事物放在一起。并且没有想法,动物也不会想到笼子、食物或者将要实施的行为。

桑迪克观察到的是他的猫看起来并不聪明:它刚开始在笼子中到处走动,并不急于出笼,只有当它通过随机机会拉动杠杆并自行释放时,才会开始提高其逃脱技能。

根据这一观察结果,桑迪克提出了一个效果定律,该定律规定任何可能带来愉快后果的行为都可能会重复出现,并且任何可能导致不愉快后果的行为都可能会被制止。

这项法则引起了操作性条件反射领域,由斯金纳(Skinner)于1938年正式定义。对于强化学习社区,它提供了制定代理的理由,这些代理基于奖励及其与环境的互动来学习政策。

它还为我们提供了关于动物学习的新见解,因为效果法则可疑地类似于当时众所周知的另一种法则:自然选择。我们的理智是否能成为适者生存的理念?

然而,有两个特点使强化学习成为一个独特的过程:

  • 它是选择性的。这与监督学习不同,因为代理会尝试各种选择,并通过比较它们的结果来从中进行选择。
  • 它是联想的。这意味着通过选择找到的替代方案与特定情况或状态相关联,以形成代理的策略。自然选择是选择过程的一个主要例子,但它不是关联的。

"我们就是要反复做。因此,卓越不是一种行为而是一种习惯。"- 亚里士多德

享乐主义者的学习指南

在分析人类思维方面,克洛普夫(Klopf)的总结非常简洁:"人的基本本质是什么?是享乐主义者。"

在他颇具争议的名为《享乐主义神经元——记忆、学习和智能理论》著作中,克洛普夫利用神经科学、生物学、心理学,以及解除他的推理的简单性和好奇心来说服我们,我们的神经元是享乐主义者。是的,神经元和你一样快乐。

当面对他那个时代的主导神经元模型,罗森布拉特(Rosenblatt)的感知器(Perceptron)(它是当今神经网络的构建块)时,克洛普夫对此感到奇怪:"如果假设神经元被认为是非追求目标的组成部分,那么追求目标的大脑功能必须被视为一种新兴现象。这样的观点是否能够对记忆,学习以及更普遍的情报进行解释?"

他提出了一个名为基本异质稳定器的新构建模块,作为未来人工智能研究的基础。克洛普夫还认为,维持体内平衡,追求一种良好稳定的状态并不是复杂系统的目的,例如人类和动物。解释植物的目标可能已经足够了,但是我们可以假设人类在确保了休内平衡之后,追求最大限度的愉悦,而不是稳定它。为什么我们的神经元会有所不同?

这些想法可能听起来难以置信,它们可以归因于震动人工智能的世界。克洛普夫认识到,随着学习研究人员几乎专注于监督学习,适应行为的基本方面正在丧失。根据克洛普夫的说法,缺少的是行为的享乐方面,从环境中获得某些结果的驱动力,控制环境朝向期望的目的前进,远离不受欢迎的目的。

在一篇批评当前控制论原理的广泛章节中,正如机器学习在当时被称为的那样,可以强调三种攻击方式:

我们应该使用深度神经网络吗?

需要明确的是,两层足以满足上世纪50年代的网络需求。克洛普夫似乎对感知器(Perceptron)模型感到满意,但他质疑它在深度网络中的学习能力。克洛普夫提出了一个问题,即使在今天,也不能让机器学习科学家置身事外:

"但是,该算法仅适用于单层自适应网络。许多后续研究未能为多层网络的一般情况产生真正可行的确定性自适应机制。一般情况下的核心问题是,在系统行为不合适时,确定任何给定网络元素应该做什么。事实证明,这非常困难,因为深层网络中各个元素的大多数输出​​与系统的最终输出具有非常间接的关系。 "

人工智能的目的是什么?

克洛普夫还质疑人工智能研究的追求。在他试图接近正确的学习目标的过程中,他采用了一种论点,我在后来的增强学习研究者中也发现了这个论点:

https://www.sciencedirect.com/science/article/pii/S0921889005800259

"生命在这个星球上已经进化了大约30亿年。在那段时间里,90%用于改进我们与爬行动物共享的神经基质。从爬行动物的时代开始,到人类出现之前,它只有相对较短的3亿年。关于智力进化的过程出现了一个问题。如果进化过程花费90%的时间来开发神经基质,剩下的10%用于制定有效的更高水平的机制,那么为什么人工智能研究人员试图以其他方式去做呢?"

智力是否聪明?

在下面的摘录中,感觉好像桑迪克和克洛普夫一直是强化学习的伙伴:"人工智能研究人员对智力的感知似乎与生命系统中这种现象的本质不符,还有另外一种方式。在生命系统中,智力往往不是智能的,至少不是研究人员有时看到的智力现象。与其相反,生命系统中的智能通常是有效的。如果一种'强力'性质可以用于智能生物的日常信息处理,那么似乎会有很多。即使对于最聪明的人来说,开展更加聪明的活动也是困难的。因此,人们想知道,智力与更高层次的信息处理之间的联系是否可能使人工智能研究人员对这一现象的看法过于狭隘。在短期内,更温和的观点会产生更有成效的理论吗?"

巴甫洛夫的狗玩西洋双陆棋

到目前为止,我们可能一直在讨论强化学习,但事实是,这个术语最初是由巴甫洛夫在1927年关于条件反射的专著的英译本中使用的。

https://academic.oup.com/brain/article-abstract/51/1/129/268769?redirectedFrom=PDF

巴甫洛夫在他著名的实验中观察到的是,当一只狗被提供食物,并且在非常接近喂食时间时发出声音,狗因此学会了将喂食与声音联系起来,甚至在没有食物的情况下,当听到声音时,狗也会流口水。

https://www.simplypsychology.org/pavlov.html

通过这一观察,巴甫洛夫为经典条件反射奠定了基础,这是第一个将时间纳入学习过程的理论。如今,RL算法主要采用时差学习,这意味着在计算动作的"质量"以做出决策时,我们也会考虑未来的奖励。

1989年,克里斯·沃特金斯(Chris Watkins)开发了Q-learning,这是最著名的强化学习算法之一,它将时间差异和最佳控制线程完全结合在一起。

1992年,Tesauro在玩西洋双陆棋的代理身上采用了时差学习的概念。这是说服研究界相信这种机器学习有潜力的时刻和应用。

虽然目前的研究主题集中在深度学习和游戏,但我们如今不会有强化学习的领域,而不是一群人谈论猫、神经元和狗。

可以说,我们从解决西洋双陆棋获得的奖励,直到那一点难以想象的艰巨任务,促使我们进一步探索强化学习的潜力。这是一个强化学习的例子吗?

探索强化学习算法背后的思想起源!相关推荐

  1. 上交张伟楠副教授:基于模型的强化学习算法,基本原理以及前沿进展(附视频)

    2020 北京智源大会 本文属于2020北京智源大会嘉宾演讲的整理报道系列.北京智源大会是北京智源人工智能研究院主办的年度国际性人工智能高端学术交流活动,以国际性.权威性.专业性和前瞻性的" ...

  2. 【重磅】Tensorflow2.0实现29种深度强化学习算法大汇总

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要3分钟 Follow小博主,每天更新前沿干货 来源:深度强化学习实验室 作者:王健树 [导读]今天给大家推荐一个超赞的强化学习项目资料,该项目 ...

  3. 【华为云技术分享】华为开发者大会HDC.Cloud带你探索强化学习三大挑战及落地实践

    2015-2017年间,AlphaGo系列事件宣告在围棋领域AI算法战胜人类世界冠军,这主要得益于其背后的核心技术-深度强化学习技术.之后研究者开始转向更加复杂的对战博弈场景,典型例子如Deepmin ...

  4. qlearning算法_通过OpenAI Gym编写第一个强化学习算法

    腾讯互娱Turing Lab从创建开始,每周在内部进行分享读书会,对业界的技术研究和应用进行讨论.在此通过公众号形式把相关有趣内容也推送给对新技术和业界趋势感兴趣的朋友. 和大量的所谓技术公众号不同, ...

  5. 入门 | 走近流行强化学习算法:最优Q-Learning

    选自Medium 作者:Yassine Yousfi 机器之心编译 参与:Nurhachu Null.李泽南 Q-Learning 是最著名的强化学习算法之一.我们将在本文中讨论该算法的一个重要部分: ...

  6. 用多智能体强化学习算法MADDPG解决“老鹰捉小鸡“问题

    点击左上方蓝字关注我们 [飞桨开发者说]郑博培:北京联合大学机器人学院2018级自动化专业本科生,深圳市柴火创客空间认证会员,百度大脑智能对话训练师,百度强化学习7日营学员 MADDPG算法是强化学习 ...

  7. 目前最好用的大规模强化学习算法训练库是什么?

    点击蓝字  关注我们 本文整理自知乎问答,仅用于学术分享,著作权归作者所有.如有侵权,请联系后台作删文处理. 本文精选知乎问题"目前最好用的大规模强化学习算法训练库是什么?"评论区 ...

  8. 谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳!|ICLR 2021

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 强化学习(RL)算法持续"进化"中-- 来自Google Research的研究人员,证明可以使用图表示 (graph ...

  9. 强化学习算法在京东广告序列推荐场景的应用实践

    猜你喜欢 0.淘宝首页猜你喜欢推荐建模实践 1.[免费下载]2022年3月份热门报告 2.[实践]小红书推荐中台实践 3.微信视频号实时推荐技术架构分享 4.对比学习在宽狩推荐系统中的应用实践 5.微 ...

最新文章

  1. Spring中使用Log4j记录日志
  2. 【PostMan】1、Postman 发送json格式请求
  3. html基本标签结构
  4. 详解 Java 的八大基本类型,写得非常好!
  5. 受限玻尔兹曼机(RBM)与python在Tensorflow的实现
  6. 米度教育零基础三个月学会机器学习视频总结
  7. 【实践】腾讯PCG数据中台DEVOPS和AIOPS实践.pdf(附下载链接)
  8. node爬取cnode首页数据
  9. Matlab机器学习之SVM工具箱
  10. Lua学习(一):luac、luajit编译与反编译
  11. ​自动驾驶测试与验证的挑战
  12. 【React之文件的运行】用webstorm运行npm,实现网页的刷新
  13. 6大智慧电厂关键技术,三维可视化仅是基础
  14. 微型计算机从外观上看可以分为,冯.诺依曼计算机 1.3 计算机系统的组成 计算机系统概述 EDVAC的3个特点:...
  15. 学习笔记之Vue基础学习(一)
  16. 虚拟机linux环境的地址怎么映射给局域网内其他电脑访问
  17. 十分钟让你明白蓄水池算法
  18. [翻译]Why Functional Programming Matters
  19. Android超人气系列动态壁纸下载(免费)
  20. ____x86 xor 指令

热门文章

  1. java命令执行类,这里设置了classpath,系统变量里的classpath将失效
  2. 用 XStream 序列化/反序列化 XML 为 Java 对象(实例)
  3. ECLIPSE 添加插件3种方法
  4. CNN加速器设计新突破,逼近能效理论极限
  5. O-GAN:简单修改,让GAN的判别器变成一个编码器!
  6. TensorFlow:Object_Detection_API在Windows10上的配置
  7. 使用Crypto++ ecdsa 进行签名和认证
  8. 以Attention Model为例谈谈两种研究创新模式
  9. 知识图普嵌入技术的极简教程:KGE以及如何计算它们
  10. GNN、RL强势崛起,CNN初现疲态?这是ICLR 2021最全论文主题分析