关注:灰质,有趣有料的AI技术分享

强化学习已经成为智能技术领域言必称的一种方法了,几乎与深度学习同日而语,无论是在下棋、打牌还是打游戏方面,强化学习以其显著优势已经成为主流技术路线。其实强化学习的起源非常早,大概可以追溯到近百年前,而且是来源于心理学和脑神经科学的启发,作者本来想试着梳理一下发展脉络,没想到知识储备差距比较大,补了不少课,还是不太满意,暂且勉力抛砖引玉,希望对大家有用。

强化学习的发展脉络

强化学习(Reinforcement Learning,简称RL,又译为“增强学习”)这一名词来源于行为心理学,行为心理学认为心理学必须研究人类可观测的行为,而不应研究意识、灵魂等看不见摸不着的那些心理活动。在研究学习活动时,行为心理学尽量不去使用“观念”等术语,而用“刺激”、“反应”等术语来解释学习,比较经典的案例就是巴甫洛夫的狗、斯金纳的鸽子,行为心理学家甚至拿自己的孩子放在研究条件反射的试验箱里,可见科学家们的执着精神。

行为心理学从这种S-R(刺激—反应)的研究出发,只研究那些看得见、听得到和摸得着的东西,拒绝当时无法观测和实证的“意识”、“心理”等心灵主义概念。行为心理学的这种思路向上追溯,可以说是受到机械论唯物主义哲学思想的启发,这种思想认为世界是物质的世界,世界的真正统一性在于它的物质性,行为心理学就比较极端的将心理学的研究范围严格框定在可以通过客观观测的手段重复试验的范畴内开展研究,尝试着将心理学纳入自然科学的范畴。

伴随着S-R(刺激—反应)的研究,行为主义心理学家们发现,生物的学习问题具有强化属性,即生物为了趋利避害而更频繁实施对自己有利的策略。尤其是新行为主义的代表斯金纳对学习问题进行了大量研究的基础上提出了强化理论,十分强调强化在学习中的重要性。行为主义人为学习是一种行为,当主体学习时反应速率就增强,不学习时反应速率则下降。因此把学习定义为反应概率的变化,提出了行为主义学习理论。这与图灵提出的人工智能的研究途径有异曲同工之处,即给机器配备好各类先进的传感器, 然后像教孩子一样教他学习,都是一种将大脑或者说从刺激到反应的过程看成黑盒的方式。

强化学习的理论基础即在于此,将智能体的学习过程看成是一种与环境的刺激-反应过程,通过智能体与环境的交互过程来学习策略以达成回报最大化或实现特定目标,其经常使用的模型方法是马尔科夫决策过程(MDP),而且伴随着决策问题复杂度的提升,其方法也逐渐从比较经典的MDP向更加接近现实的约束马尔可夫决策过程、模糊马尔可夫决策过程和部分可观察马尔可夫决策过程等方向发展,其目的就是模拟智能体面对的无法完全观测环境、无法精确描述环境等问题。

说到这里就发现很多问题的起源都是一种思想、哲学,或者说是看待问题的一种思路,这种初始的观念可能会对未来产生非常长远的影响,很多学科的发展都有这个过程,一开始是哲学,然后进入逻辑学(而且逻辑学也是唯物主义特有的学科,唯心主义则没有这个学科),伴随着测试仪器和试验技术的发展,逐渐实证化,通过物理学、数学进行形式化建模,最后把抽象的概念与具象的世界进行关联,形成一种科学的研究范式。因此,提出这种观念或者思想的人常被人们推崇备至,诸如古今各种先贤哲人,这可能也是为什么很多伟大的科学家都对哲学、神学等很感兴趣的原因。

回来继续说强化学习,虽然说强化学习理论本身建立的很早,但是其发扬光大也是近10年左右的事情,尤其是AlphaGo,可以看做是近期的一个里程碑事件,复兴了这一古老的理论,其原因主要还是因为神经网络及计算机技术的发展,使得强化学习理论中非常难以计算的策略评估函数(通常采用Bellman期望方程)变得易于计算,虽然收敛的稳定性还有待提升,但是至少不会出现以前非常难以求解的困境,经过大量尝试,在各种策略型问题中,强化学习成为非常强大的一种方法,目前策略型AI的SOTA方法大都是基于强化学习理论和方法构建的,越复杂的问题越是离不开强化学习。

以上就是强化学习发展的大致脉络,作者没有去涉及数学模型和计算过程,主要尝试说一下强化学习背后的思想。

行为主义心理学和认知心理学

接下来再谈谈未来。行为主义心理学其实也是心理学发展的过去式了,目前主流的思想已经发展到了认知心理学、社会心理学以及演化心理学占据主导。认知心理学将人类的认知看成是一个信息加工的过程,包括了学习、记忆、思维、理解以及在认知过程中发生的其他行为。其实这种发展也受益于脑科学的发展,尤其是对大脑观测手段的发展,以前的行为主义心理学家没有条件从微观上了解大脑的运作过程。因此,可以发现,很多脑科学的成果逐渐引入到了智能技术之中,比如多巴胺的激励作用、注意力机制、通过情景记忆快速学习、学习如何学习的元学习等等。

前段时间强化学习之父Sutton和他的弟子Silver(AlphaGo项目的主导者之一),在一篇名为《Reward is enough》的论文中提出将智能及其相关能力理解为促进奖励最大化。该研究认为奖励足以驱动自然和人工智能领域所研究的智能行为,包括知识、学习、感知、社交智能、语言、泛化能力和模仿能力,并且研究者认为借助奖励最大化和试错经验就足以开发出具备智能能力的行为。因此,他们得出结论:强化学习将促进通用人工智能的发展

基于强化学习的思想,该研究认为奖励足以表达各种各样的目标。智能的多种形式可以被理解为有利于对应的奖励最大化,而与每种智能形式相关的能力能够在追求奖励的过程中隐式产生。因此该研究假设所有智能及相关能力可以理解为一种假设:「奖励就足够了」。智能及其相关的能力,可以理解为智能体在其环境中的行为奖励最大化。这一假设很重要,因为如果它是正确的,那么一个奖励最大化智能体在服务于其实现目标的过程中,就可以隐式地产生与智能相关的能力,具备出色智能能力的智能体将能够「适者生存」。

关于这个观点的争议颇多,但是人类和各种动物通过与环境交互获得知识,以及不同的环境下的物种具有某种共性模式的特点还是值得深思的,这在《枪炮、病菌与钢铁》一书中也有提及,更不用说达尔文的进化论了。

成瘾机制

提到奖励机制就要聊聊脑神经科学领域的成瘾机制研究了,也是人类身上发生的一种常见行为。这里面涉及到了比较相似的一种奖励机制,人类的奖励机制-一种叫多巴胺(dopamine)的神经化合物。这也是很多哺乳类动物都存在的行为现象,即大脑里面一种原始的神经电路,它掌管情感,动机,冲动和潜意识的决策行为。这系统的效率非常高,以致自人类诞生以来到现在它们几乎没有进化过。这种原始的奖赏机制促使你做一切事情,使得你能生存并把基因传给下一代。在人类奖赏机制中最优先包括食物,性,爱,友情和新奇(novelty)。这些我们叫做‘自然强化物’(‘natural reinforcers')。

通过研究发现,一方面在我们遗传的基因中,本身有一种强大的原始奖励机制已经写入了我们的大脑,另一方面,在后天的行为中,这种机制是可以被调整的,虽然越涉及到生存与繁殖的越困难,比如食物、性爱等等。科学上的基础是神经可塑性,这也是近些年来脑神经科学方面的研究成果,过去的科学家往往认为在婴儿关键期后,大脑结构往往不发生变化。大脑有神经元细胞和神经胶质细胞构成,这些细胞互相连接,通过加强或削弱这些连接,大脑的结构可以发生改变。大体来说,各种行为习惯或者成瘾现象都逐渐证明了大脑中相似的变化,即多巴胺受体的增加或减少,通过行为刺激产生。

在成瘾现象的研究过程中,大脑的基本变化过程也逐渐清楚“敏化-脱敏-调整敏化类型-对新类型脱敏”,对身体有害的行为成瘾会导致生理上疾病或心理上的抑郁症等症状。因此,从行为本身来说无所谓好坏,但是站在对人类或社会所造成的结果来看就有善恶之分了,网瘾、化学品上瘾等都是具有很强危害性的,反之如果对一些学习、运动等上瘾却是比较不错的成瘾。

如何利用成瘾的研究成果来培养对我们比较好的瘾,去掉坏的瘾呢?笔者在这里抛砖引玉尝试着谈一下,大概是三种手段。

一是冥想,据研究表明长期冥想可以减弱大脑前额皮层的神经连接,让我们的大脑更容易恢复到较为初始的状态,敏化反应减弱,即上瘾程度变弱;

二是替代强化,一般来说大脑的机制决定了人类必须要获得足够的多巴胺才能正常活下去,否则会陷入抑郁症或者觉得人生没有意义的状态,所以如果想要改变现在的上瘾问题,不能只是戒断当前行为,还要同时培养一种新的瘾,只不过我们可以主动选择对哪种行为上瘾,这样反而可以利用这种上瘾的大脑神经机制来更好的做我们值得喜欢的事情;

三是戒断,对于不好的成瘾行为比如暴饮暴食、网络依赖、游戏依赖等,需要不断减少行为次数和强度,即减弱刺激,是否要一次性戒断完全不做要看每个人的自律程度了,但是按照大脑神经重塑的过程来说,通常一下子戒断是比较难的,逐渐减少直到戒断是可行性比较高的。

可以看出,脑神经科学的研究对于我们人类自身和智能科技的发展都非常重要,启发颇多,毕竟是千万年来进化的成果,有效性是得到了测试验证的,非常值得深入研究和借鉴继承。

一点关于强化学习的粗浅认识,班门弄斧,如果觉得还行,请给咱们支持一下吧,点赞、分享、收藏各种走起,在此多谢啦!

交流合作

请加微信号:yan_kylin_phenix注明姓名+单位+从业方向+地点,非诚勿扰。

强化学习、行为心理学和成瘾机制相关推荐

  1. Deepmind“好奇心”强化学习新突破!改变奖励机制,让智能体不再“兜圈子”

    来源:Google AI 作者:Nikolay Savinov, Timothy Lillicrap, 编译:大明 [新智元导读]Google.Deepmind和苏黎世联邦理工学院的研究人员提出&qu ...

  2. 由神经网络机器学习的算法谈谈人的成瘾以及疲惫机制

    什么是神经网络 对于一个内部未知的复杂的系统,对人来说,这就像一个黑盒子.要如何去理解它内部的变化规律呢? 神经网络学习算法,通过系统不断的反馈,来调整自身的网络权重,从而使神经网络能够大致的表示系统 ...

  3. 【17】 强化学习 17章 前沿技术

    文章目录 名词 离轨策略 折扣过程 折扣系数 价值函数 广义策略迭代(4.6节)或者"行动器一评判器"算法 正文 17.1 广义价值函数和辅助任务 1.广义价值函数是什么? 2.辅 ...

  4. 【夸夸其谈】为啥老想玩——浅谈游戏成瘾原因

    游戏成瘾作为以前经常被人提及的概念,多数人简单粗暴的一股脑把罪责全都推到游戏本身,认为其是"电子海洛因",往往选择忽视背后的深层次原因.这无疑是偷懒欠思考的,因为人类成瘾历来有之, ...

  5. 赠书 | 干货!用 Python 动手学强化学习

    01 了解强化学习 新闻报道中很少将强化学 习与机器学习.深度学习.人工智能这些关键词区分开来,所以我们要先介绍什么是强化学习,再讲解其基本机制. 强化学习与机器学习.人工智能这些关键词之间的关系: ...

  6. 干货丨 从遗传算法到强化学习,一文介绍五大生物启发式学习算法

    文章来源:机器之心 本文是作者献上的一部「野外纪录片」,介绍了五个直接受大自然启发而产生的人工智能算法:人工神经网络.遗传算法.集群智能.强化学习和人工免疫系统. 在当今技术背景之下,人工智能的发展催 ...

  7. 多智能体强化学习及其在游戏AI上的应用与展望

    近年来,人工智能技术在很多领域都取得了亮眼成就,并逐步从感知智能向决策智能迈进.强化学习是实现决策智能的重要路径,而现实世界中往往存在着多智能体的交互,也催生了多智能体强化学习的发展.这篇文章主要对多 ...

  8. 为什么ChatGPT用强化学习而非监督学习?

    为什么ChatGPT非得用强化学习,而不直接用监督学习?原因不是那么显而易见.在上周发布的<John Schulman:通往TruthGPT之路>一文中,OpenAI联合创始人.ChatG ...

  9. “强化学习之父”萨顿:预测学习马上要火,AI将帮我们理解人类意识

    李杉 编译自 KDnuggets 量子位 出品 | 公众号 QbitAI 地处加拿大埃德蒙顿的阿尔伯塔大学(UAlberta)可谓是强化学习重镇,这项技术的缔造者之一萨顿(Rich Sutton)在这 ...

  10. 强化学习笔记2:序列决策(Sequential Decision Making)过程

    1 Agent and Environment 强化学习研究的问题是 agent 跟环境交互,上图左边画的是一个 agent,agent 一直在跟环境进行交互. 这个 agent 把它输出的动作给环境 ...

最新文章

  1. React 组件js文件中如何引入其他的js 文件数组
  2. 教育部:建设100+AI特色专业, 500万AI人才缺口要补上!
  3. C++知识点3——const基础
  4. Linux 常用检测命令
  5. 什么是网络套接字(Socket)?
  6. 联合国隐私监督机构:大规模信息监控并非行之有效
  7. 【Transformer】Do Vision Transformers See Like Convolutional Neural Networks?
  8. 【sqlite常用操作SQL语句】
  9. 关于React-native的介绍以及环境搭建
  10. 基于ActiveMQ的Topic的数据同步——初步实现
  11. 【Android游戏开发二十】物理游戏之重力系统开发,让你的游戏变得有质有量!...
  12. matlab 灰度图像矩阵,MatLab矩阵运算——图像灰度化
  13. 幂级数 | 函数项级数、函数展开成幂级数(泰勒展开+麦克劳林展开)
  14. 分布式,嵌入式,集群三种操作系统
  15. SIM卡中ICCID标识与IMSI的区别
  16. 山石防火墙命令查看配置_hillstone 防火墙基本配置
  17. 2016年全国高中数学联赛加试T1解答
  18. 字母x在css中的角色
  19. vue实现标签云,让你的标签动起来
  20. Kubernetes 进阶训练营 Pod基础

热门文章

  1. 编译内核报错——*** 没有规则可制作目标“debian/canonical-revoked-certs.pem”,由“certs/x509_revocation_list” 需求。 停止。
  2. 《DFS》《剪枝》Problem C. 买蛋糕
  3. 小野猫(xiaoyemaokeji)用python写了一个hello world。
  4. OUC-SE-BLOG1
  5. 我的完整版mbti职业性格测试
  6. 近期民生银行香港卡办理补件通知:请补充公司名称+税号
  7. Python爬虫selenium的使用实例爬取知乎首页数据!
  8. cpan安装软件时报错
  9. SpiderViewer - 远程桌面客户端
  10. aardio - 利用bitLock快速读写图片颜色值