【斯坦福新课】CS234:强化学习
关注上方“深度学习技术前沿”,选择“星标公众号”,
资源干货,第一时间送达!
本文为大家带来了一份斯坦福大学的最新课程CS234——强化学习,主讲人是斯坦福大学Emma Brunskill,她是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组,主要研究强化学习。要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。
1. 课程介绍(Description)
要实现人工智能的梦想和影响,需要能够学会做出正确决策的自主系统。强化学习是这样做的一个强有力的范例,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程将为强化学习领域提供扎实的介绍,学生将学习包括通用化和探索在内的核心挑战和方法。通过讲课、书面作业和编码作业的结合,学生将精通强化学习的关键思想和技术。作业将包括强化学习和深度强化学习的基础,这是一个极有前途的新领域,将深度学习技术与强化学习相结合。此外,学生将通过期末专题来增进对强化学习领域的理解。
课程地址:
https://web.stanford.edu/class/cs234/schedule.html
2. 预备知识(Prerequisites)
1)熟练Python
所有的课程都将使用Python(使用numpy和Tensorflow,也可以使用Keras)。这里有一个针对那些不太熟悉Python的人的教程。如果你有很多使用不同语言(如C/ c++ / Matlab/ Javascript)的编程经验,可能会很好。
2)大学微积分,线性代数(如 MATH 51, CME 100)
你应该能够熟练地进行(多变量)求导,理解矩阵/向量符号和运算。
3)基本概率及统计(例如CS 109 或同等课程)
你应该了解基本的概率,高斯分布,均值,标准差等。
4)机器学习基础
我们将阐述成本函数,求导数,用梯度下降法进行优化。CS 221或CS 229均可涵盖此背景。使用一些凸优化知识,一些优化技巧将更加直观。
3. 主讲:Emma Brunskill
Emma Brunskill是斯坦福大学计算机科学助理教授,任职斯坦福大学人类影响力实验室、斯坦福人工智能实验室以及统计机器学习小组。
主要研究强化学习系统,以帮助人们更好地生活。并处理一些关键技术。最近的研究重点包括:1)有效强化学习的基础。一个关键的挑战是要了解代理商如何平衡勘探与开发之间的局限性。2)如果要进行顺序决策,该怎么办。利用巨大数量的数据来改善在医疗保健,教育,维护和许多其他应用程序中做出的决策,这是一个巨大的机会。这样做需要假设/反事实推理,以便在做出不同决定时对潜在结果进行推理。3)人在回路系统。人工智能具有极大地扩大人类智能和效率的潜力。我们正在开发一个系统,用其他众包商(CHI 2016)生产的(机器)固化材料对众包商进行训练,并确定何时扩展系统规格以包括新内容(AAAI 2017)或传感器。我们也有兴趣研究确保机器学习系统在人类用户的意图方面表现良好(Arxiv 2017),也被称为安全和公平的机器学习。
个人主页:https://cs.stanford.edu/people/ebrun/
4. 课程安排
01: 强化学习导论(Introduction to Reinforcement Learning)
02: 表格MDP规划(Tabular MDP planning)
03: 表格RL政策评估(Tabular RL policy evaluation)
04: Q-learning
05: 带函数逼近的强化学习(RL with function approximation)
06: 带函数逼近的强化学习(RL with function approximation)
07: 带函数逼近的强化学习(RL with function approximation)
08: 从马尔可夫决策过程到强化学习(Policy search)
09: 从马尔可夫决策过程到强化学习(Policy search)
10: 课堂中期(In-class Midterm)
11: 模仿学习/探索(Imitation learning/Exploration)
12: 探索/开发(Exploration/Exploitation)
13: 探索/开发(Exploration/Exploitation)
14: 批处理强化学习(Batch Reinforcement Learning)
15: 嘉宾讲座:Craig Boutilier(Guest Lecture: Craig Boutilier)
16: 课堂测验(In-class Quiz)
17: 蒙特卡洛树搜索算法(Monte Carlo Tree Search)
18: 墙报展示(Poster presentations)
【斯坦福新课】CS234:强化学习相关推荐
- 斯坦福 cs234 强化学习笔记整理活动 | ApacheCN
整体进度:https://github.com/apachecn/stanford-cs234-notes-zh/issues/1 贡献指南:https://github.com/apachecn/u ...
- 高中计算机教学心得,高中信息技术新课改教学学习心得.doc
高中信息技术新课改教学学习心得 高中信息技术新课改教学学习心得 织金县第七中学 教师 徐立泽? 时代在进步,教育在变化,当信息技术新课程标准公布时,就从当中学习了许多全新的教学理念,那么面对这些新课程 ...
- 深度强化学习_深度学习理论与应用第8课 | 深度强化学习
本文是博雅大数据学院"深度学习理论与应用课程"第八章的内容整理.我们将部分课程视频.课件和讲授稿进行发布.在线学习完整内容请登录www.cookdata.cn 深度强化学习是一种将 ...
- 谷歌大脑新研究:强化学习如何学会用声音来观察?
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 编译 | 王晔 校对 | 维克多 人类已经证明,大脑中的神经系统拥有 ...
- 第二十七课.深度强化学习(二)
目录 概述 价值学习 Deep Q Network DQN的训练:TD算法(Temporal Difference Learning) 策略学习 Policy Network 策略网络训练:Polic ...
- 第二十六课.深度强化学习(一)
目录 强化学习基本概念 数学基础回顾 强化学习中的专业术语 强化学习中的随机性 如何使用AI进行游戏 关于rewards和returns 价值函数Value Functions action-valu ...
- 第17课:强化学习的模型训练
在之前的课程中,我们为大家介绍的机器学习实例大部分都属于监督学习或者无监督学习.例如图像的分类和目标检测属于监督学习,而词嵌入课程中的 word2vec 和 GloVe 都属于无监督学习.在本次课程中 ...
- sutton 强化学习 中文版pdf_互联网数据驱动力简书-《数据推动力-创造数据文化》免费pdf分享...
本书介绍 移动网络.5G发展正如火如荼.每年都有大量的会议(Strata +Hadoop World).畅销书(大数据.信息与噪声.精益分析).商业文章(<数据科学家:21世纪最性感的工作> ...
- 重磅!李沐在斯坦福开新课了!
点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 朋友 ...
最新文章
- 数字时代企业迎变局,如何让增长变简单?
- 高并发之CAS机制和ABA问题
- Big Data, Hadoop and StreamInsight™
- MyBatis版本升级引发的线上告警回顾及原理分析
- Ibatis 升级 Mybatis
- P2742 [USACO5.1]圈奶牛Fencing the Cows /【模板】二维凸包
- linux服务 运维案例,linux运维实战练习案例-2015年12月20日-12月31日
- Python 字典 dict() 函数
- 使用Sakura查看字符十六进制编码(附带ASCII编码表)
- 【Tensorflow教程笔记】常用模块 tf.data :数据集的构建与预处理
- h3c 链路聚合测试_H3CSE学习之链路聚合
- vue动态绑定背景图片的透明度
- [XMAN2018排位赛]通行证
- 讯飞离线语音合成(语记|语音+)
- 新浪开发者平台(Sina App Engine)初探
- 计算机公式求时间差公式,excel时间差计算公式有哪些 excel怎么快速计算时间差...
- 如何处理编码GBK的不可映射字符
- 低学历转行3D建模有前途吗,游戏3D建模怎么样?
- 判断指定日期为当年第几天(Java实现)
- python通过网络发送图片_python 打开网络图片