图解深度强化学习(简单的)
其实理解起来就是环境是一个根据输入输出响应信息的一个标注器
其他的就是一个神经网络,
只不过输入和输出是环境的输入和输出,神经网络就是智能体。代替和模拟其他左右动作,就人类环境而言,我们是和环境学习的一切,环境的变化和智能体的响应就构成了学习,那么在过去的人工智能深度神经网络为什么没有出现人类智慧呢,其实有智没有会,原因不得而知,原因有可能是输出过于单一,输入和输出不是真正的逻辑对应关系,或者说对应的逻辑关系比较单一,如果多模态输出,就极有可能让神经网络可以实现智能,实现人类的意识输出,比如 输入一个图输出,不仅仅是分类,而是多样的比如环境什么,还有输入也是单一的,一个图不同时间代表的意义也是不同的,所以输入也要多模态输出也要多模态,才会是一个智能体。
如今研究界研究的也只是单一的输入输出多模态而已,但是以及能提高之前单一神经网络的智能了,如果能多对多的输入,输出。就能建立一个真正的智能,其实也没有那么多输入,大致人脑的输入,是图 声 等
其他的可以人类自定义一些数据输入就可以,不必太真实。
如果为了真实可以模拟一个虚拟的世界让,人工智能学习。
比如游戏世界,中可以体会到风,体会到重量,这都是可以模拟的
其实为什么要输入那么多,原因很简单,你要模拟 x 和y的关系 不说明x是什么,那么机器永远要猜你要输入是什么,这就是神经网络需要大量数据输入的原因,如果是多模态的可能不需要那么多数据就学会了
输出也是一样的一个图输入,对于现在单一的y来说,信息太多还都是么有的,首先神经网络要剔除那些么有用的信息,才会开始找对应关系
可以这样理解输入的图是10个数,每个数的状态有十个,而你要建立的是其中一个数的某几个状态和y的关系,那么神经网络要剔除 9*10状态信息,如果是一张图,会更多多余的信息系对于y来说。
图解深度强化学习(简单的)相关推荐
- 读后感和机翻《人类因果迁移:深度强化学习的挑战》
研究朱松纯FPICU体系的第1篇文章 <Human Causal Transfer: Challenges for Deep Reinforcement Learning>CogSci 2 ...
- 被追捧为“圣杯”的深度强化学习已走进死胡同
作者 | 朱仲光 编译 | 夕颜 出品 | AI科技大本营(ID:rgznai1100) [导读]近年来,深度强化学习成为一个被业界和学术界追捧的热门技术,社区甚至将它视为金光闪闪的通向 AGI 的圣 ...
- DeepMind悄咪咪开源三大新框架,深度强化学习落地希望再现
作者 | Jesus Rodriguez 译者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) [导读]近几年,深度强化学习(DRL)一直是人工智能取得最大突破的核心.尽管取得了很多进 ...
- 必看,61篇NeurIPS深度强化学习论文解读都这里了
作者 | DeepRL 来源 | 深度强化学习实验室(ID: Deep-RL) NeurIPS可谓人工智能年度最大盛会.每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究,并进行热烈探讨,大 ...
- 深度学习的发展方向: 深度强化学习!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:莫凡&马晶敏,上海交通大学,Datawhale成员 深度学 ...
- 深度强化学习为什么在实际当中用的比较少 ?
公众号关注 "视学算法" 设为 "星标",重磅干货,第一时间送达! 来自 | 知乎 地址 | https://www.zhihu.com/question/29 ...
- Neuron 2020 | 深度强化学习和神经科学
作者 | 涂心琪 审稿 | 李梓盟 今天给大家介绍DeepMind人工智能研究团队负责人Matthew Botvinick在Neuron上发表的文章"Deep Reinforcement L ...
- 第二十六课.深度强化学习(一)
目录 强化学习基本概念 数学基础回顾 强化学习中的专业术语 强化学习中的随机性 如何使用AI进行游戏 关于rewards和returns 价值函数Value Functions action-valu ...
- 《强化学习周刊》第26期:UCL UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型...
No.26 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
最新文章
- 2019前沿信息科技创新论坛成功举办
- Gdiplus byte *数据转换为Bitmap类型图片
- C语言学习之分别用while、 for双重循环的方式编程绘制如下图形
- TFS 2012研发管理能力(9)
- centos8上docker tomcat容器访问报404解决方法
- 0057-简单的累加
- 消消乐实现下坠_手把手教你如何实现iOS消消乐小游戏Demo
- 亲密关系沟通-【独特性】尊重与探索他人
- uoj #111. 【APIO2015】Jakarta Skyscrapers
- HeadFirstJava——10_数字与静态
- 详解使用可道云Kodbox快速在云服务器上搭建云盘
- 数据分析实战(五)基于R语言的Kmean聚类分析实战
- linux daemontools 安装
- 翁恺c语言视频作业题,翁恺入门C语言第2周编程练习
- 一步步学习SPD2010--第一章节--探索SPD2010(4)--使用SharePoint Designer创建站点
- js 解决Safari浏览器中实现支付宝网页支付无法拉取支付宝APP的问题
- 关于preempt_enable 和 preempt_disable
- DG 主库fial over,强制激活备库解决案例
- Linux文件数量统计命令
- 【小程序从0到1】网络数据请求——request合法域名|GET|POST|跨域?Ajax?
热门文章
- 海豚php添加一行,添加表单项通用方法-海豚PHP1.0.6完全开发手册-基于ThinkPHP5.0.10的快速开发框架...
- css 字体大小_用一个 CSS 属性打造自适应网站
- matlab 数据拟合
- Win7桌面快捷切换技巧?
- koa源码阅读之koa-compose/application.js
- PHP JSON_ENCODE 不转义中文汉字的方法
- WiFi是SD-WAN的良好组合,但不是必备选择
- SaltStack工具中MySQL的模块返回值问题解决
- Qt 不再使用 LGPLv2.1 授权
- 32位so库兼容64位使用