其实理解起来就是环境是一个根据输入输出响应信息的一个标注器
其他的就是一个神经网络,
只不过输入和输出是环境的输入和输出,神经网络就是智能体。代替和模拟其他左右动作,就人类环境而言,我们是和环境学习的一切,环境的变化和智能体的响应就构成了学习,那么在过去的人工智能深度神经网络为什么没有出现人类智慧呢,其实有智没有会,原因不得而知,原因有可能是输出过于单一,输入和输出不是真正的逻辑对应关系,或者说对应的逻辑关系比较单一,如果多模态输出,就极有可能让神经网络可以实现智能,实现人类的意识输出,比如 输入一个图输出,不仅仅是分类,而是多样的比如环境什么,还有输入也是单一的,一个图不同时间代表的意义也是不同的,所以输入也要多模态输出也要多模态,才会是一个智能体。
如今研究界研究的也只是单一的输入输出多模态而已,但是以及能提高之前单一神经网络的智能了,如果能多对多的输入,输出。就能建立一个真正的智能,其实也没有那么多输入,大致人脑的输入,是图 声 等
其他的可以人类自定义一些数据输入就可以,不必太真实。
如果为了真实可以模拟一个虚拟的世界让,人工智能学习。
比如游戏世界,中可以体会到风,体会到重量,这都是可以模拟的
其实为什么要输入那么多,原因很简单,你要模拟 x 和y的关系 不说明x是什么,那么机器永远要猜你要输入是什么,这就是神经网络需要大量数据输入的原因,如果是多模态的可能不需要那么多数据就学会了
输出也是一样的一个图输入,对于现在单一的y来说,信息太多还都是么有的,首先神经网络要剔除那些么有用的信息,才会开始找对应关系
可以这样理解输入的图是10个数,每个数的状态有十个,而你要建立的是其中一个数的某几个状态和y的关系,那么神经网络要剔除 9*10状态信息,如果是一张图,会更多多余的信息系对于y来说。

图解深度强化学习(简单的)相关推荐

  1. 读后感和机翻《人类因果迁移:深度强化学习的挑战》

    研究朱松纯FPICU体系的第1篇文章 <Human Causal Transfer: Challenges for Deep Reinforcement Learning>CogSci 2 ...

  2. 被追捧为“圣杯”的深度强化学习已走进死胡同

    作者 | 朱仲光 编译 | 夕颜 出品 | AI科技大本营(ID:rgznai1100) [导读]近年来,深度强化学习成为一个被业界和学术界追捧的热门技术,社区甚至将它视为金光闪闪的通向 AGI 的圣 ...

  3. DeepMind悄咪咪开源三大新框架,深度强化学习落地希望再现

    作者 | Jesus Rodriguez 译者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) [导读]近几年,深度强化学习(DRL)一直是人工智能取得最大突破的核心.尽管取得了很多进 ...

  4. 必看,61篇NeurIPS深度强化学习论文解读都这里了

    作者 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) NeurIPS可谓人工智能年度最大盛会.每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究,并进行热烈探讨,大 ...

  5. 深度学习的发展方向: 深度强化学习!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:莫凡&马晶敏,上海交通大学,Datawhale成员 深度学 ...

  6. 深度强化学习为什么在实际当中用的比较少 ?

    公众号关注 "视学算法" 设为 "星标",重磅干货,第一时间送达! 来自 | 知乎 地址 | https://www.zhihu.com/question/29 ...

  7. Neuron 2020 | 深度强化学习和神经科学

    作者 | 涂心琪 审稿 | 李梓盟 今天给大家介绍DeepMind人工智能研究团队负责人Matthew Botvinick在Neuron上发表的文章"Deep Reinforcement L ...

  8. 第二十六课.深度强化学习(一)

    目录 强化学习基本概念 数学基础回顾 强化学习中的专业术语 强化学习中的随机性 如何使用AI进行游戏 关于rewards和returns 价值函数Value Functions action-valu ...

  9. 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...

    No.26 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

最新文章

  1. 2019前沿信息科技创新论坛成功举办
  2. Gdiplus byte *数据转换为Bitmap类型图片
  3. C语言学习之分别用while、 for双重循环的方式编程绘制如下图形
  4. TFS 2012研发管理能力(9)
  5. centos8上docker tomcat容器访问报404解决方法
  6. 0057-简单的累加
  7. 消消乐实现下坠_手把手教你如何实现iOS消消乐小游戏Demo
  8. 亲密关系沟通-【独特性】尊重与探索他人
  9. uoj #111. 【APIO2015】Jakarta Skyscrapers
  10. HeadFirstJava——10_数字与静态
  11. 详解使用可道云Kodbox快速在云服务器上搭建云盘
  12. 数据分析实战(五)基于R语言的Kmean聚类分析实战
  13. linux daemontools 安装
  14. 翁恺c语言视频作业题,翁恺入门C语言第2周编程练习
  15. 一步步学习SPD2010--第一章节--探索SPD2010(4)--使用SharePoint Designer创建站点
  16. js 解决Safari浏览器中实现支付宝网页支付无法拉取支付宝APP的问题
  17. 关于preempt_enable 和 preempt_disable
  18. DG 主库fial over,强制激活备库解决案例
  19. Linux文件数量统计命令
  20. 【小程序从0到1】网络数据请求——request合法域名|GET|POST|跨域?Ajax?

热门文章

  1. 海豚php添加一行,添加表单项通用方法-海豚PHP1.0.6完全开发手册-基于ThinkPHP5.0.10的快速开发框架...
  2. css 字体大小_用一个 CSS 属性打造自适应网站
  3. matlab 数据拟合
  4. Win7桌面快捷切换技巧?
  5. koa源码阅读之koa-compose/application.js
  6. PHP JSON_ENCODE 不转义中文汉字的方法
  7. WiFi是SD-WAN的良好组合,但不是必备选择
  8. SaltStack工具中MySQL的模块返回值问题解决
  9. Qt 不再使用 LGPLv2.1 授权
  10. 32位so库兼容64位使用