欢迎大家关注微信公众号:DRL学习,我们一起来学习强化学习和深度强化学习的算法及现状应用问题。

强化学习简单说就是学习如何最大化未来奖励的预期总和,以及agent学会在环境中做出的行动序列,其中随机状态对代理人来说是未知的,并且取决于其行动。具体的强化学习分类如谢图所示,强化学习属于交叉学科,对于很多的计算及计算机学科都有帮助及涉及。

今天,就带大家来聊聊强化学习那些事以及小编这一年多走过的弯路,遇过的坑。前段时间看过一篇文章叫做《强化学习-从入门到放弃》,文章写的挺好的,而且句句扎心。内心不够强大,抗压能力不达到一定境界的孩纸,小编劝你们不要涉足强化学习,因为真的会让你疯,让你成魔。

强化学习(reinforcement learning)是高于深度学习的强人工智能领域,最被人们所熟知,也最成功的例子就是DeepMind做的AlphaGo,AlphaGo Zero以及AlphaZero。目前最值得关注的领域为无人驾驶领域,强化学习应用在无人 驾驶技术的L4级别和L5级别中,也算是最热门,坑最多的人工智能领域。其实,强化学习属于无监督学习的代表,它的思想特别简单,如下图所示。

大脑代表agent,地球代表environment,agent给出action到environment当中,同时environment给agent当前的观察observation得出的状态,同时给出当前行为的reward,agent根据返回的observation和reward决定下一步该怎么走,思想说起来其实很简单,但是真正实现起来却特别难。其原因首先是environmnent的多变性,不同的环境就会产生不同的影响;其次,reward奖励的设定也很重要,如果设置不合理,agent会投机取巧走捷径,得不到你想要的结果。因此如何设置环境和奖励是强化学习的难点也是关键点。

接下来,跟大家分享小编自己的学习方法,希望对大家的学习有益。对于强化学习的学习,小编是五步走战略,希望可以给刚涉足人工智能的小伙伴一些启示。第一步,学习强化学习,就一定要用python语言基础,因为无论你使用的平台是TF还是caffe,python语言都是基础知识,没有强大的C++和python语言做支持,学了也是白学。第二步,机器学习(machine learning),机器学习是入门人工智能的基石,在这里我推荐大神吴恩达的机器学习课程或者台湾国立大学李宏毅教授的机器学习课程,这两门课程都非常的详实,对于入门和掌握机器学习的内容都非有用,书籍推荐南京大学周志华教授的西瓜书《机器学习》,其他的一些培训机构不能说不好,会有一定用处,但我总觉得批量生产出来的程序员总有些奇怪。第三步,深度学习(deep learning),其实也就是研究经典网络,例如在CNN网络当中的几大经典网络LeNet5,AlexNet,VGG,Google Inception和ResNet是必须掌握透彻的,然后利用学习的网络自己动手做实验,如图像的分类,检索等问题,只有自己动手的网络才是自己掌握的网络,因为你会遇到各种奇奇怪怪的问题,真正解决问题才能进步。第四步,学习强化学习的基本知识,包括一些基本概念和公式的推导,基础阶段我推荐我的男神,AlphaGo之父David Silver在2015年伦敦大学的系列公开课,他的公开课讲的特别详实对学习强化学习的基础知识起到很好的理解与引导作用;目前,UC Berkely新出来了课程CS294也是很不错的,大家都可以自行观看学习。第五步,读论文,而且是最新的论文,小编的前四步,花费了一年多的时间才完成,目前在第五步阶段,并养成一个习惯是每天早上打开电脑的第一件事是去Deepmind和Openai主页看一眼,看看他们这两大巨头又在闷声干啥大事,因为这些公司一定会把他们的最新成果公布出来,所以,每天关注是对自己有好处的。

最后,我们来聊聊强化学习的现状与应用。目前,强化学习在游戏领域和机器人领域做的是最突出的,究其原因其实是因为游戏的环境相对稳定且易于操控,所以很多人喜欢用游戏进行强化学习算法的检验,最经典的游戏莫过于Atari游戏。对于机器人,小编了解相对较少,因为涉及的东西太多,但是强化学习算法在机械臂的应用非常的好,最棒的就是Openai推出的HER算法,给定目标位置,机械臂可以很快做出反应并到达指定位置,可以说是很棒棒了。

简单介绍其概念及学习方法和顺序,在之后的过程中会推出深度强化学习专栏,敬请期待!

转载于:https://www.cnblogs.com/Fiona-Y/p/10149020.html

Reinforcement Learning,微信公众号:DRL学习相关推荐

  1. 学习python的微信公众号_python学习—实现微信公众号聊天机器人

    最近在学习python,想做一个聊天机器人,百度了很多资料,有的也是根据别人分享的文档一步步操作,但过程中还是遇到了一些问题,因此 我自己总结了一下我的步骤: 1. 申请一个公众号, 具体的可以百度微 ...

  2. 微信公众号开发学习指南

    写在前面的话微信公众号开发自己学习时不知从何下手,写此文希望可以帮到今后学习开发这方面的朋友.学编程以来,刚开始我一直挺喜欢看视频教程的,边学边模仿.然而现在视频教程我却越发不愿意看了.越来越觉得教程 ...

  3. 微信公众号开发学习(一)

    最近有一个项目关于微信公众号的,以前没有接触过,也趁此机会学习一下.网上很多关于该部分的介绍了,但是或多或少在有些步骤上出了问题.现对该部分学习做一记录: 1.我是在公司学习的,连接的公司内网.公众号 ...

  4. 如何用ABBYY FineReader提取微信公众号的学习资料?

    碎片化阅读是微信公众号的特色,但是公众号里面的文章却有很多有用的学习资料.为不让读者直接复制粘贴,大部分资料都被做成图片并打上水印.如何将这些资料提取出来并转换成Word文档呢? ABBYY Fine ...

  5. Java+微信公众号开发学习总结(一)

    这两天自己想学习微信公众号开发,于是在网上搜索并上手练习,在这个过程中因为各种问题,(描述不完整,有的文章不知道怎么就蹦出个新的常量,也没说在哪定义的,还有jar包版本的问题坑了我一天的时间)所以特此 ...

  6. python接入微信公众号_Python学习之微信公众号接入 一 验证

    标签: 最近看了些Python的书,但是感觉没有什么进步,想做点事情试试,刚好我以前弄了一个微信公众号,好久不管理了 这次就用它来练练手. 看网上有些教程告诉怎么弄的,我弄了半天终于把验证这步通过了, ...

  7. python微信开发入门_python微信公众号开发学习记录

    网上有很多微信公众号的开发教程,但是都是好几年前的了,而且很多都是抄袭其他人的,内容几乎一模一样.真的无语了.只好自己总结一下开发的一些简单流程. 一先去注册个微信公众号,这个就不详细说了, 二登录后 ...

  8. 学习微信公众号开发(学习LaoBi课程记录)

    1. 微信公众号分为编辑模式和开发模式应用 编辑模式: 登录微信公众号后台(web),根据自己的需求设置.不需要写代码. 开发模式:         [1]开发环境准备  1.一个微信公众号.     ...

  9. 微信公众号开发学习笔记(一)公众号分类

    微信公众号是开发者或商家在微信公众平台上申请的应用账号,该帐号与QQ账号互通,通过公众号,商家可在微信平台上实现和特定群体的文字.图片.语音.视频的全方位沟通.互动 .形成了一种主流的线上线下微信互动 ...

最新文章

  1. 今日 Paper | 新闻推荐系统;多路编码;知识增强型预训练模型等
  2. 扩展图形输出 1111 java
  3. i=i+1,i+=1与i++的区别
  4. Tensorflow——placeholder(矩阵运算小实例)
  5. 时间序列分析导论书摘:自相关图意义分析
  6. 用于物联网数据收集和传输的边缘网络密钥
  7. 附合导线计算软件_再也不盲目跑杆了,一次性搞懂水准测量+导线测量!
  8. 百万调音师—AU效果器基本应用
  9. 笔记本触摸板操作手势
  10. POE指针式时钟系统自动追时精准校时
  11. 个人自媒体技术分享博客网站模板
  12. 深度学习数学基础 讲义_深度学习入门部分的讲义3
  13. 【光线追踪系列十七】直接光源采样
  14. 83.【JQuery.Ajax】
  15. 《分布式与云计算》课程笔记——2.2 Distributed Systems:P2P
  16. 四个有意义的哲理故事
  17. 在centos7 下安装python3.6
  18. python实现数据可视化软件_基于Python实现交互式数据可视化的工具
  19. [生而为人] 《送别》李叔同
  20. 关于POS接口配置的几个注意事项

热门文章

  1. 想做刷爆TikTok的短视频?这8种特效一定要用到
  2. ng Baidu Baidu Baidu ang
  3. In file included from scripts/kconfig/lxdialog/checklist.c:24:0: scripts/kconfig/lxdialog/dialog.h:3
  4. tableau计算之(三)表计算——分区/寻址——手动计算/快速计算
  5. 热力学多元函数微分基础
  6. (解决 fatal error C1083: 无法打开包括文件:“xxxxxxxxx.h”: No such file or directory)VS和Eclipse添加新文件/文件夹路径步骤
  7. 联想昭阳K22连不上远程桌面
  8. 列表推导式详解:[i for i in L]
  9. 算法之-判断某个整数是否为素数的自定义函数:
  10. Android Studio强者之路-刘桂林-专题视频课程