2016 年,AlphaGo 宛然横空出世,凭借精湛的棋艺接连战胜韩国围棋九段棋手李世石、中国围棋九段棋手柯洁之后,更是以 60 局无败绩的成绩轰动整个科技圈,人工智能的新纪元也因此开启。站在技术角度,在探讨其背后人工智能应用的同时,深度强化学习这一专业术语走近了大众视野。

强化学习之父 Richard Sutton 曾评价道:“强化学习是人工智能的未来。“如今深度强化学习在无人驾驶、计算机博弈、人机交互、机器人控制、文本生成等领域都展现了强悍的学习能力,吸引了诸多爱好者。为此 RLChina 特别推出了“充电续航”栏目,为强化学习爱好者带来了超质量强化学习暑假课!

该课程由 UCL 汪军老师发起,不仅有来自北京大学、清华大学、麻省理工大学等全球顶级高校和企业的 20 位强化学习专家授课,还有智能体竞赛日、决策智能创业日等安排体验强化学习的落地实践,更重要的是,这是分享给广大强化学习爱好者的免费网络直播课程

课程安排

时 间

  • 2021 年 8 月 16 日至 22 日

讲 师

  • 来自全球顶尖高校和企业的 20 位强化学习专家

授 课 形 式

  • 开放的免费网络直播课程

课 程 内 容

覆盖强化学习入门、进阶、前沿、实战,适合各种阶段和各种背景的强化学习爱好者。

课程介绍

课程表

今年的暑期课将持续一周时间,周一至周五是主课和习题课,周六和周日分别是智能体竞赛日和决策智能创业日,具体的课程表如下:

报名方式

扫码下方二维码,直接提前预约“占座”。

教师介绍

第1课 机器学习入门 

—— 机器学习和深度学习基础

陈旭,现为中国人民大学高瓴人工智能学院准聘助理教授。博士毕业于清华大学,博士期间曾在佐治亚理工学院进行交流访问,博士毕业后曾在英国伦敦大学学院担任博士后研究员,于 2020 年加入中国人民大学。其主要研究方向为推荐系统,强化学习,因果推断等。曾在 SIGIR、TOIS、WWW、WSDM、CIKM、AAAI 等信息检索领域顶级会议和期刊发表论文 40 余篇。曾获得 The Web Conference 2018 最佳论文提名奖、AIRS 2017 最佳论文奖。

第2课 机器学习进阶 

—— 机器学习中的优化理论和方法

张景昭,MIT博士在读,本科毕业于UC Berkeley,将于 2022 年担任清华大学交叉信息科学院助理教授。研究项目主要集中于优化算法,希望通过研究算法的复杂度框架来改进复杂度分析,从而得到更符合实际的理论。对Online Learning, Reinforcement Learning以及其学习应用也有科研经验。

第3课 博弈论入门 

—— 博弈、策略和均衡

张海峰,中国科学院自动化研究所副研究员,领导群体决策智能团队。于北京大学计算机系获得本科、博士学位,曾在英国伦敦大学学院(UCL)从事博士后研究工作。致力于多智能体和强化学习的学术研究和平台研发工作,研究兴趣包括智能体策略评估、多智能体强化学习算法等,研究成果发表在 ICML、IJCAI、AAAI、AAMAS、WSDM、CIKM、《软件学报》等国内外知名学术会议、期刊;曾负责研发北京大学Botzone多智能体博弈系统(www.botzone.org.cn),累计注册用户超过 1 万人,并在人工智能国际会议  IJCAI 成功举办“中国麻将智能体竞赛”。

第4课 博弈论进阶 

—— 机制设计和博弈复杂度

刘正阳,北京理工大学计算机学院助理教授。分别于 2013 和 2018 年取得上海交通大学计算机科学与技术专业本科(ACM班)与博士学位。对理论计算机科学具有浓厚的兴趣,目前主要研究方向为算法博弈论与复杂性。

第5课 强化学习入门(一)

—— 强化学习的值函数和策略方法

张伟楠博士现任上海交通大学电子信息与电气工程学院约翰·霍普克罗夫特计算机科学中心长聘教轨副教授、博士生导师,科研领域包括强化学习、信息检索和数据科学,相关的研究成果在国际会议和期刊上发表超过 100 篇学术论文。张伟楠长期担任 ICML、NeurIPS、ICLR、KDD、AAAI、IJCAI、SIGIR 等机器学习和数据科学的会议(高级)程序委员和 JMLR、TOIS、TKDE、TIST 等期刊的评审以及 FCS 的青年编委。张伟楠于 2017 年获得上海 ACM 新星奖;2018 年获华为最佳合作贡献奖;2018 年获首届达摩院青橙奖。他的研究工作于 2017 年获 ACM 国际信息检索会议 SIGIR 的最佳论文提名奖;2019 年获 ACM SIGKDD 深度学习实践研讨会最佳论文奖;2020 年获国际机器人学习会议 CoRL 最佳系统论文奖。张伟楠于 2011 年在上海交通大学计算机系 ACM 班获得学士学位,于 2016 年在伦敦大学学院计算机系获得博士学位。

第6课 强化学习入门(二) 

—— 规划和马尔可夫决策过程

王梦迪,普林斯顿大学电子工程系以及统计与机器学习中心的副教授。同时,她还隶属于运筹与金融工程系及计算机系。王梦迪于 2007 年从清华大学获得信息科学与控制论学士学位,于 2013 年获得麻省理工学院电子工程和计算机科学博士学位。她的研究专注于数据驱动的随机优化及其在机器学习和强化学习中的应用。

第7课 强化学习进阶(一) 

—— 强化学习的样本复杂性和探索

杨卓然,普林斯顿大学运筹学与金融工程系的博士研究生,将于 2022 年担任耶鲁大学统计与数据科学系助理教授。他于 2015 年获得清华大学数学系学士学位,研究方向是统计机器学习和增强学习,旨在从理论角度理解高维度非线性模型的统计和计算问题,同时致力于将大规模算法和多 Agent 增强学习算法应用在机器人和 AI 游戏中,曾获得 Francis Robbins Upton Fellowship 奖和 Tencent Ph.D Fellowship 奖,并于 NeurIPS,ICML 等顶级会议发表多篇论文。

第8课 强化学习进阶(二) 

—— 概率强化学习和贝叶斯大脑

汪军是伦敦大学学院(UCL)计算机系教授,阿兰·图灵研究所 Turing Fellow,华为诺亚方舟实验室决策推理首席顾问科学家。主要研究智能信息系统,包括机器学习、强化学习、多智能体,数据挖掘、计算广告学、推荐系统等。

第9课 强化学习前沿(一) 

—— 离线强化学习

卢宗青,北京大学计算机系“博雅”助理教授,人工智能研究院研究员。主要研究领域为强化学习,发表论文 40 余篇,包括 NeurIPS、ICML、ICLR 等。他于南洋理工大学获得博士学位,于东南大学获得硕士和学士学位。

第10课 强化学习前沿(二) 

—— 模仿学习

俞扬博士,南京大学教授,国家万人计划青年拔尖人才。主要研究领域为机器学习、强化学习。获 2013 年全国优秀博士学位论文奖、 2011 年CCF优秀博士学位论文奖。发表论文 40 余篇,包括多篇 Artificial Intelligence、IJCAI、AAAI、NeurIPS、KDD等,获得4项国际论文奖励和2项国际算法竞赛冠军,入选 2020 年 CCF-IEEE CS 青年科学家奖、2018 年 IEEE Intelligent Systems 杂志评选的“国际人工智能 10 大新星”,获 2018 亚太数据挖掘“青年成就奖”,受邀在 IJCAI’18 作关于强化学习的“青年亮点”报告。

第11课 多智能体入门(一) 

—— 多智能体学习

杨耀东博士现任英国伦敦大学国王学院计算机系助理教授,科研领域包括强化学习、博弈论和多智能体强化学习,相关的研究成果在国际会议和期刊上发表超过 30 篇学术论文。杨耀东长期担任 ICML、NeurIPS、ICLR、AAAI 等机器学习会议程序委员和 JMLR、IEEE TNNLS、IEEE Cybernatics 审稿人。他的研究工作于 2020 年获国际机器人学习会议 CoRL 最佳系统论文奖, 2021 年获国际多智能体系统会议 AAMAS (blue sky track)最佳论文奖。杨耀东于中国科学技术大学获得学士学位,于英国帝国理工大学获得硕士学位,于英国伦敦大学学院获得博士学位。

第12课 多智能体入门(二) 

—— 智能体策略的评估

杜雅丽,伦敦大学学院多智能体学习团队研究员,于 2019 年获悉尼科技大学博士学位。主要研究兴趣为机器学习、强化学习及其在游戏 AI、推荐检索和传统控制问题中的应用。目前主要从事多智能体算法的设计和研究,包括灵活控制任意数量的智能体、奖励多样性行为、多智能体信用分配、多智能体交互结构学习和学习模型的鲁棒性等。相关研究成果已广泛发表在 ICML、NeurIPS、IJCAI、IEEE TMM 等刊物。

第13课 多智能体进阶(一) 

—— 多智能体强化学习算法

张崇洁,清华大学交叉信息科学院助理教授,博士生导师。2011 年在美国麻省大学阿默斯特分校获计算机科学博士学位,而后在美国麻省理工学院从事博士后研究。目前的研究专注于人工智能、深度强化学习、多智能体系统等领域。相关的研究成果在 ICLR、ICML、NeurIPS、AAAI 等国际会议上发表 30 余篇学术论文。

第14课 多智能体进阶(二) 

—— 基于平均场的多智能体强化学习

徐任远,南加州大学(USC)工业系统工程系助理教授。其主要研究方向为随机控制,博弈论与机器学习的交叉领域以及在金融方向的应用。徐任远本科毕业于中国科学技术大学数学学院(2014),于加州大学伯克利分校(UC Berkeley)工业工程系获得博士学位(2019),并曾于牛津大学(University of Oxford)数学系从事博士后工作(Hooke Research Fellow,2019-2021)。

第15课 多智能体前沿(一)

—— 捉迷藏游戏策略和开放问题

吴翼,清华大学交叉信息研究院助理教授, 2019 年于加州大学伯克利分校获得博士学位,曾任 OpenAI 多智能体团队研究员。2014 年本科毕业于清华大学交叉信息研究院计算机科学实验班。研究方向为深度强化学习与多智能体强化学习,代表作包括 OpenAI Hide-and-Seek Project,MADDPG 算法,Value Iteration Network 等,曾获 NeurIPS 2016 最佳论文奖。

第16课 多智能体前沿(二) 

—— 深度学习求解大规模复杂博弈

安波是南洋理工大学校长委员会讲席副教授和南洋理工大学人工智能研究院联席院长。主要研究领域包括人工智能、多智能体系统、算法博弈论、强化学习及优化。有 100 余篇论文发表在国际顶级会议 AAMAS、IJCAI、AAAI、KDD、UAI、EC、WWW、ICLR、NeurIPS、ICML 以及著名学术期刊 JAAMAS和AIJ上。曾获 IFAAMAS 杰出博士论文奖、 美国海岸警卫队的卓越运营奖、AAMAS 最佳应用论文奖、IAAI 创新应用论文奖、DAI 最佳论文奖、INFORMS Daniel H. Wagner 杰出运筹学应用奖,以及南洋青年研究奖等荣誉。受邀在 IJCAI'17 上做 Early Career Spotlight talk。获得 2017 年微软合作 AI 挑战赛的冠军。入选 2018 年 IEEE Intelligent Systems“AI's 10 to Watch”。他是 AIJ,JAAMAS,IEEE Intelligent Systems,JAIR,ACM TIST 的 Associate Editor。他是 AAMAS'20 的程序委员会主席。当选国际智能体及多智能体系统协会理事会成员及 AAAI 高级会员。

第17课 专题报告(一) 

—— 强化学习训练系统

温颖,上海交通大学约翰·霍普克罗夫特计算机科学中心长聘教轨助理教授。他的研究方向涉及多智能体学习,强化学习及博弈论在其中的应用。他分别于 2020 年和 2016 年获得英国伦敦大学学院计算机系博士学位和研究型硕士学位。他的十余篇研究成果发表在 ICML, ICLR, IJCAI, AAMAS 等相关领域的一流国际会议上,并且获得 CoRL 2020 最佳系统论文奖和 AAMAS Bule Sky Track 最佳论文奖。他连续多年担任 ICML, NeurIPS, ICLR, IJCAI, AAAI, ICAPS, Operational Research 等国际知名会议/期刊的 PC 成员或审稿人。

第18课 专题报告(二) 

—— 多智能体通信与协同中的博弈论与强化学习

方飞,卡内基梅隆大学计算机学院软件研究所助理教授。在加入 CMU 之前,她是哈佛大学的博士后研究员,2016 年她获得了南加州大学(USC)的博士学位。方飞的研究方向是人工智能和多智能体系统,致力于将机器学习与博弈论相结合。她的研究曾多次获得顶级 AI 会议的奖项,包括 IJCAI 2021 Computer and Thought Award, IJCAI-ECAI’18 杰出论文奖、IAAI’16 创新应用奖、IJCAI’15 的 CompSust Track 杰出论文奖。她的论文曾获IFAAMAS-16 Victor Lesser Distinguished Dissertation 奖的亚军、William F. Ballhaus, Jr. Prize 以及南加州大学计算机科学最佳论文奖。她的研究被成功部署到保护渡轮线路和反偷猎的应用中,为构建更好社会环境做出了贡献。

第19课 专题报告(三) 

—— 强化学习在快手的应用

刘霁博士毕业于威斯康辛大学计算机系,曾就职于罗切斯特大学计算机系博士生导师。现担任快手 AI 平台部、Ytech 西雅图人工智能实验室和 FeDA 商业化智能实验室负责人,以及游戏 AI 实验室联合负责人。他从事机器学习以及人工智能研究和应用超过 15 年,涉猎领域包括分布式机器学习,运筹优化,推荐/广告系统和算法,计算机视觉,强化学习/游戏 AI,联邦学习,数据分析,机器人等,参与主导过多项美国自然科学基金项目。他在顶级计算机会议及其期刊上发表了超过 100 篇论文,并曾担任 NeurIPS、ICML、AAAI、IJCAI 等多个国际顶级会议的(Senior) Area Chair。他带领团队曾多次在各类国际竞赛中获奖。2017 年他被评为 MIT 科技评论评为中国 35 位 35 岁以下科技创新者,2018 年入选中国 5 位 35 岁以下 AI 风云人物。

第20课 专题报告(四) 

—— 深度强化学习的挑战和落地

郝建业博士,天津大学智算学部副教授,博士生导师,华为诺亚方舟决策与推理实验室主任。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域国际会议和期刊论文 100 余篇,专著 2 部。主持参与国家基金委、科技部、天津市人工智能重大等科研项目 10 余项,研究成果荣获 ASE2019、DAI2019、CoRL2020 最佳论文奖等,同时在游戏 AI、广告及推荐、自动驾驶、网络优化等领域落地应用。

习题课 

—— 动手学强化学习

林舒,中国科学院自动化研究所助理研究员,主要研究领域包括组合优化问题求解、程序自动生成和算法优化、游戏 AI、编程基础教育等。分别于 2021 年和 2013 年在北京大学获得计算机软件与理论博士学位和计算机科学与技术学士学位。

阅读原文”提前“占座”!

麻省、北大、清华等顶尖高校与企业 20 位强化学习专家齐聚,RLChina 2021 强化学习暑期课免费报名啦!...相关推荐

  1. 麻省、北大、清华等顶尖高校与企业 20 位强化学习专家齐聚,RLChina 2021 强化学习暑期课免费报名啦!

    2016 年,AlphaGo 宛然横空出世,凭借精湛的棋艺接连战胜韩国围棋九段棋手李世石.中国围棋九段棋手柯洁之后,更是以 60 局无败绩的成绩轰动整个科技圈,人工智能的新纪元也因此开启.站在技术角度 ...

  2. 国外顶尖高校、企业分享人工智能自学课程英文原课程分享

    人工智能无疑已经是当下最火热的方向,在很多领域已经融入我们生活,ChatGPT,Midjourney只是其中一个细分热点.目前这个领域,虽说国内也有不少课程,但是大部分源头还得从英文资料中找.如何学到 ...

  3. 十六位顶尖专家齐聚,解密阿里云最新核心技术竞争力!

    自带革命属性的阿里云,上攀险峰下闯深海行至今日,据国际研究机构 Gartner 发布的最新云计算市场追踪数据显示,阿里云亚太市场排名第一,市场份额从 26% 上涨至 28%,接近亚马逊和微软总和:全球 ...

  4. 2020大数据十大趋势发布!华为、阿里、滴滴、百度、京东、讯飞等顶尖专家齐聚BDTC...

    2019 年 12 月 5 日,由中国计算机学会(CCF)主办,CCF 大数据专家委员会承办,CSDN.中科天玑数据科技股份有限公司协办的中国大数据技术大会(BDTC 2019)在北京长城饭店拉开序幕 ...

  5. 清华大学计算机王佳希,北大清华2012年拟录取保送生名单及简析(北京市)

    教育部阳光高考信息平台今天公示了2012年拟在北京录取保送生的名单.保送生名单和相关分析如下: 姓名 中学 保送大学 陈麟 中国人民大学附属中学 北京大学 董明皓 中国人民大学附属中学 北京大学 关梓 ...

  6. 清华大学计算机王佳希,【旧文】北大清华2012年拟录取保送生名单及简析(北京市)...

    原文发表于2013年5月3日 教育部阳光高考信息平台今天公示了2012年拟在北京录取保送生的名单.保送生名单和相关分析如下: 姓名 中学 保送大学 陈麟 中国人民大学附属中学 北京大学 董明皓 中国人 ...

  7. 院士大咖齐聚苏州,共话AI未来,30个优秀个人和企业、产品受到表彰

    8.14上午,由新一代人工智能产业技术创新战略联盟主办的"2020全球人工智能产品应用博览会"在苏州拉开帷幕, 本届全球智博会公布了中国人工智能年度十大风云人物.中国人工智能年度十 ...

  8. 美通企业日报 | 牛文文称明年创业要弯腰干脏活累活;高校百英里接力赛北大清华同济前三...

    今日看点 创业黑马董事长.黑马学院院长牛文文发表2020创业生存法则.由创业黑马主办的"第十二届创业家年会暨产业加速大会"在北京举办,会议主题为"新一亿中流时代" ...

  9. 南京大学「自然指数」超越清华北大,位列全国高校第一、世界第七,突显学术实力...

    栗子 发自 凹非寺 量子位 出品 | 公众号 QbitAI 最新的自然指数 (Nature Index) 公布了,这是全球科研机构中,高水平学术成果产出的重要指标. 今次发布的指数,是根据2018年7 ...

最新文章

  1. 马斯克39也火星计划PPT
  2. hadoop--Unable to load native-hadoop library for your platform解决方法
  3. codeforce训练2总结
  4. linux设置history历史记录
  5. Qt应用程序发布:Qt应用程序添加版本版权生产商等信息
  6. DevOps发布策略简介
  7. Go 语言里怎么正确实现枚举?答案藏着官方的源码里
  8. 关于input样式的一些技巧
  9. Linux必会原理之软连接文件和硬链接文件的区别
  10. android发送短信界面,android调用系统发送短信 和 已发送短信界面
  11. Atitit vm os内存管理 目录 1. 冯诺依曼结构、哈佛结构、改进型哈佛结构 1 1.1. 冯·诺依曼结构 1 1.2. 哈佛结构 2 1.3. 改进型的哈佛结构与哈佛体系结构差别 3 2.
  12. R语言介绍及软件安装
  13. 基于微信小程序的电影院购票系统丨毕业设计源码
  14. 聚类分析matlab原理,matlab笔记模糊聚类分析原理及实现023.docx
  15. 邵武一中2021高考成绩查询,福建高中成绩排名2021,福建中考分数线排行榜
  16. RTC领域首个AI算法大赛 AI in RTC 2019 创新挑战圆满落幕
  17. 五分钟看懂同城小程序是什么,能做什么!
  18. statsmodels.regression.linear_model.RegressionResults
  19. 本地搭建私有云盘:虚拟机安装群晖NAS 1/5
  20. 虚拟现实和增强现实技术_增强现实和虚拟现实在NBA中的作用

热门文章

  1. SpringBoot定时器
  2. J.U.C - 其它组件
  3. SQL Server数据库安装和使用
  4. Harmonic Number (II) LightOJ - 1245 (找规律?。。。)
  5. impala 使用记录
  6. [算法][包围盒]AABB简单类
  7. atitit.浏览器插件解决方案----ftp插件 attilax 总结
  8. 该怎么清缓存呢?fflush clear ignore
  9. 有了门面,程序会更加体面!- pos软件基于三层架构 -09
  10. 二叉树的构建及各种遍历回顾