小结

大脑收益系统相关的神经通路很复杂，且没有被人类完全理解。但发展与成果是有的：

多巴胺神经活动的收益预测误差假说：一群科学家认识到了 TD 误差行为与产生多巴胺的神经元活动之间的惊人之处；
大脑实现了一个类似于“行动器-评判器”算法的东西，这是另一个重要的假说。行动器与评判器使用了不同的资格迹，且这是他们的唯一区别；
多智能体：多巴胺系统的显著特征是释放多巴胺的神经纤维可以广泛地投射到大脑的多个部分…强化学习智能体集合中的每个智能体都会收到相同的强化信号，这个信号取决于所有成员或团队的活动。如果每个团队的成员使用一个足够有效的学习算法，则即使团队成员之间没有直接交流，团队也可以集体学习，以提高整个团队的绩效，并按照全局广播的强化信号进行评估。

后话：依旧是这个问题，我现在时间比较紧张，急于将《强化学习》这本书读完；且现在没有到达能研究心理学与神经科学的高度，因此对于第14、15章采取了略读策略。个人认为这些理论固然重要，且有启发性，但其理论深度甚至已经超出了数学的范畴，即过于偏重理论。笔者会关注这些问题与新闻，希望其能为笔者的工程问题带来启发。

《强化学习》中的第15章：神经科学相关推荐

一文弄懂元学习 (Meta Learing)（附代码实战）《繁凡的深度学习笔记》第 15 章元学习详解（上）万字中文综述
<繁凡的深度学习笔记>第 15 章元学习详解 (上)万字中文综述(DL笔记整理系列) 3043331995@qq.com https://fanfansann.blog.csdn.net ...
《强化学习周刊》第26期：UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
强化学习中的脉冲神经网络
简介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...
labview叠加白噪声_强化学习中Ornstein-Uhlenbeck噪声是鸡肋吗？
欢迎转载,转载请注明出处--知乎专栏"机器学习与控制论". 读过DDPG论文[1]的同学几乎都会有一个问题,论文中使用Ornstein-Uhlenbeck噪声用于探索,比较难理解, ...
《强化学习与最优控制》学习笔记（三）：强化学习中值空间近似和策略空间近似概述
写在前面的前一章链接: <强化学习与最优控制>学习笔记(二):强化学习与最优控制的一些术语对比这章主要是对应书中第二章前面的值空间近似和策略空间近似的简要介绍部分. 在本书的第一章就指 ...
初探强化学习(10)强化学习中的一些术语（non-stationray，sample efficiency，planning和Learnin，Reward，off-policy和on-policy ）
1. 关于stationray 参考博客. Stationary or not 根据环境是否稳定.可以将强化学习问题分为stationary.non-stationary. 1.1 stationar ...
[强化学习-3] Devil 课程第二章解析+ 学生马尔可夫决策过程代码
马尔可夫决策过程(MDP) 一:介绍马尔可夫决策过程是用来形式化地描述强化学习中的环境其中环境是完全可以观测的值得注意的是,大部分强化学习问题都可以看作 MDP 问题. 简单地理解,MDP是用来 ...
多智能体强化学习：鼓励共享多智能体强化学习中的多样性
题目:Celebrating Diversity in Shared Multi-Agent Reinforcement Learning 出处:Neural Information Processi ...
深度强化学习中的泛化
Overfitting in Supervised Learning 机器学习是一门学科,其中给定了一些训练数据\环境,我们希望找到一个优化目标的模型,但其目的是在训练期间从未见过的数据上表现出色.通 ...
（深入理解）强化学习中Model-based和Model-free的区别是什么
文章目录 RL的形式化 RL求解算法 model-based:知己知彼,百战百胜 Model-free:两耳不闻窗外事,一心只读圣贤书总结 RL的形式化首先我们定义强化学习中的马尔可夫决策过程MD ...

《强化学习》中的第15章：神经科学

小结

《强化学习》中的第15章：神经科学相关推荐

最新文章

热门文章