前言: 本次笔记对《强化学习(第二版)》第十五章进行概括性描述。

本次笔记内容依旧很少。神经科学是拓展部分,书上已经尽量将所举例子语言简化。

小结

大脑收益系统相关的神经通路很复杂,且没有被人类完全理解。但发展与成果是有的:

  • 多巴胺神经活动的收益预测误差假说:一群科学家认识到了 TD 误差行为与产生多巴胺的神经元活动之间的惊人之处;
  • 大脑实现了一个类似于“行动器-评判器”算法的东西,这是另一个重要的假说。行动器与评判器使用了不同的资格迹,且这是他们的唯一区别;
  • 多智能体:多巴胺系统的显著特征是释放多巴胺的神经纤维可以广泛地投射到大脑的多个部分…强化学习智能体集合中的每个智能体都会收到相同的强化信号,这个信号取决于所有成员或团队的活动。如果每个团队的成员使用一个足够有效的学习算法,则即使团队成员之间没有直接交流,团队也可以集体学习,以提高整个团队的绩效,并按照全局广播的强化信号进行评估。

后话:依旧是这个问题,我现在时间比较紧张,急于将《强化学习》这本书读完;且现在没有到达能研究心理学与神经科学的高度,因此对于第14、15章采取了略读策略。个人认为这些理论固然重要,且有启发性,但其理论深度甚至已经超出了数学的范畴,即过于偏重理论。笔者会关注这些问题与新闻,希望其能为笔者的工程问题带来启发。

《强化学习》中的第15章:神经科学相关推荐

  1. 一文弄懂元学习 (Meta Learing)(附代码实战)《繁凡的深度学习笔记》第 15 章 元学习详解 (上)万字中文综述

    <繁凡的深度学习笔记>第 15 章 元学习详解 (上)万字中文综述(DL笔记整理系列) 3043331995@qq.com https://fanfansann.blog.csdn.net ...

  2. 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...

    No.26 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  3. 强化学习中的脉冲神经网络

    简 介: 脉冲强化学习是最近兴起的将脉冲神经网络应用到强化学习中的一个研究领域.固然脉冲神经网络的引入会给强化学习带来一些新的东西,但目前的研究仍然仅仅满足于如何让算法收敛,而没有发挥出脉冲神经网络独 ...

  4. labview叠加白噪声_强化学习中Ornstein-Uhlenbeck噪声是鸡肋吗?

    欢迎转载,转载请注明出处--知乎专栏"机器学习与控制论". 读过DDPG论文[1]的同学几乎都会有一个问题,论文中使用Ornstein-Uhlenbeck噪声用于探索,比较难理解, ...

  5. 《强化学习与最优控制》学习笔记(三):强化学习中值空间近似和策略空间近似概述

    写在前面的 前一章链接: <强化学习与最优控制>学习笔记(二):强化学习与最优控制的一些术语对比 这章主要是对应书中第二章前面的值空间近似和策略空间近似的简要介绍部分. 在本书的第一章就指 ...

  6. 初探强化学习(10)强化学习中的一些术语(non-stationray,sample efficiency,planning和Learnin,Reward,off-policy和on-policy )

    1. 关于stationray 参考博客. Stationary or not 根据环境是否稳定.可以将强化学习问题分为stationary.non-stationary. 1.1 stationar ...

  7. [强化学习-3] Devil 课程第二章解析+ 学生马尔可夫决策过程代码

    马尔可夫决策过程(MDP) 一:介绍 马尔可夫决策过程是用来形式化地描述强化学习中的环境 其中环境是完全可以观测的 值得注意的是,大部分强化学习问题都可以看作 MDP 问题. 简单地理解,MDP是用来 ...

  8. 多智能体强化学习:鼓励共享多智能体强化学习中的多样性

    题目:Celebrating Diversity in Shared Multi-Agent Reinforcement Learning 出处:Neural Information Processi ...

  9. 深度强化学习中的泛化

    Overfitting in Supervised Learning 机器学习是一门学科,其中给定了一些训练数据\环境,我们希望找到一个优化目标的模型,但其目的是在训练期间从未见过的数据上表现出色.通 ...

  10. (深入理解)强化学习中Model-based和Model-free的区别是什么

    文章目录 RL的形式化 RL求解算法 model-based:知己知彼,百战百胜 Model-free:两耳不闻窗外事,一心只读圣贤书 总结 RL的形式化 首先我们定义强化学习中的马尔可夫决策过程MD ...

最新文章

  1. php语+言教程,【杂谈】php言语入门教程(PHP编程进修路线图)
  2. spring boot的多环境部署
  3. 【转】 android之如何在两个activity之间传递handler_利用broadcast广播机制
  4. Linux——k8s命令别名修改
  5. 7教程统计意义_学渣的医学统计学自救笔记(一)
  6. python下int转日期_减去不同格式的日期并转换为Int - python
  7. 操作系统-页式虚拟存储器管理系统设计
  8. java需要数学_学java要数学好嘛?
  9. 数据分析方法论和数据分析方法
  10. 手机b站封面提取网站_手机b站封面自定义图片大全及获取bilibili视频封面提取网站网址...
  11. java序列化的接口为什么是空的?
  12. python从字符串中提取指定的内容
  13. 关键决策——策略模式
  14. java 以某某结尾_Java中删除第一个集合中以某某开头的元素,删除第二个集合中以某某结尾的元素,并合并成一个集合...
  15. 理财入门之萌萌赚钱观
  16. 推荐五款Android 应用的自动化测试工具
  17. SAP CTRL加逗号,句号后注释和取消注释不起作用的解决方法
  18. R语言使用多个数据类型不同的向量数据创建一个dataframe数据对象、使用[]操作符和列名称访问dataframe指定数据列的数据(dataframe column data)
  19. kibana discover查询语法
  20. 616微盟零售购物节开办:全链路智慧增长开拓B端思维边界

热门文章

  1. 力扣题目——53. 最大子序和
  2. 【SQL】去除表中的重复行
  3. 解决 meterpreter 使用shell后 shell内中文乱码的问题
  4. 【ROS系统】解决找不到用户工作空间下的程序包的问题——E:No such package
  5. JSON跨域解决方案收集
  6. C++异常 调用abort()
  7. 来自对象字段的Python字典
  8. 如何快速验证电子邮件地址?
  9. 电脑查询ip地址的方法,第一种最为简单
  10. cf烟雾头怎么调win7系统