大家好,我是对白。

今天给大家分享一下南大Lamda实验室俞扬老师的牛年总结,该实验室在国内强化学习领域属于Top2级别的,17年本科保研时有幸参加过俞扬老师的面试,他为人非常和蔼,当时的面试题是讲述一下强化学习中的Q-learning与DQN算法,后来虽然保研去了清华,但实验室也经常与南大Lamda合作一些项目,所以对俞扬老师还是非常崇敬的,以下为原文。

去年组里研究生新生入学的时候,有同学提到喜欢看我在知乎上的年终小结,突然想起牛年的小结没写( ° △ °|||) 因此还是觉得有必要总结一下,特别是我们碰到的种种困难,也许能给同学们一点鼓励。

我们这几年一直在发展可落地的强化学习技术。不仅是有“应用前景”,也不仅是在某个特定场景用起来,而要实现在很多决策类任务中解决问题,成为通用的智能决策工具

当下通用落地的关键,我认为在于具备数据驱动的能力,能充分利用历史上不那么好的决策数据,学到更好的策略。因为基于数据的机器学习路径,已经在监督学习的普及应用中验证了落地的便利性。而经典强化学习研究的成果可以说都是基于仿真环境的,仿真的好坏成为制约策略质量的关键,实用性很差。

近几年发展的offline RL或叫batch RL的目标,就是要做数据驱动。然而现在offline RL音量最大的研究组的成果,应用背景考虑的是在实验室中的机器人控制之类的场景,而我们考虑的商业化场景,往往有更多和更严苛的要求,例如有各式各样的约束和第一次上线不成功就滚蛋的要求。因此对于技术路线的选择,也就出现了差异。大量offline RL工作走了model-free的方向,也就是绕开环境模型直接从数据中学策略,而这一方向完全不能满足我们的需求,光是各式各样的约束就没法往上加。只有好的环境模型才能满足需求,我们走的是把model学好的方向。

于是在看着许多model-free offline RL方法、以及Dyna-style model-based RL这一类仅少量的使用model的方法刷出benchmark新高的时候,我们琢磨着怎么把model学好、在full model中训练出能在真实任务上用起来的策略。已公开发表的工作有:

  • 第一次证明了model学习的复合误差可以从平方级降低到线性,且不可再降低。

  • 第一次突破“紧贴数据”保守原则的方法。

总结起来,我们已经在数据驱动的强化学习上做了下图中的一些工作:

基础研究之外,我们花了很大力气把研究成果和应用经验积累到工具里(限于技术同学们都不爱写文档的事实,工具的帮助文档还在不断完善),我们年前还组织了一次强化学习应用比赛,其中一个目的也是为了收到关于工具使用情况的反馈。比赛和工具相关的信息可见「深度强化学习论坛」:

比赛任务源自真实业务,为商家发促销优惠券。历史数据是针对每个用户的“千人千面”优惠券发放的情况。而“千人千面”的策略必然要使用个人特征,不符合现在的大数据使用限制,因此比赛要求得到“千人一面”的发券策略,不能针对单个用户的特征下手,同时也要考虑商家的利益,在整体ROI(盈利率)>=6.5的约束下最大化GMV(总销额)。这里对整体盈利率的要求就是一种常见的决策约束,并且比赛可提交策略的次数有限(实际应用中很可能是1次)。另外说明的是比赛是不限技术类型的,但不提供在线试错。

最近刚有参赛同学在我们的baseline上做出了更好的成绩,也反馈了帮助工具改进的信息。预祝取得更好成绩!

今年RL会在更多的行业场景里用起来,让这种关于行动决策的AI技术在现实中转化为生产力。

如果觉得有用,就请分享到朋友圈吧。

对白的算法屋

一位本科创业赚数百万的清华小哥哥,BAT算法工程师。日常分享AI前沿算法、创业心得和人生感悟。偶尔逗比,一直正能量! 关键词:机器学习、深度学习、推荐系统、自然语言处理

关于我

你好,我是对白,清华计算机硕士毕业,现大厂算法工程师,拿过8家大厂算法岗SSP offer(含特殊计划),薪资40+W-80+W不等。

高中荣获全国数学和化学竞赛二等奖。

本科独立创业五年,两家公司创始人,拿过三百多万元融资(已到账),项目入选南京321高层次创业人才引进计划。创业做过无人机、机器人和互联网教育,保研清华后退居股东。

我每周至少更新三篇原创,分享人工智能前沿算法、创业心得和人生感悟。我正在努力实现人生中的第二个小目标,上方关注后可以加我微信交流。

期待你的关注,我们一起悄悄拔尖,惊艳所有

南大Lamda实验室俞扬:我的牛年小结相关推荐

  1. 2018计算机保研经验——北大信科夏令营、九推,南大lamda实验室

    保研历程刚刚结束,趁着还没忘,留一些经验送给后来人.也感谢学长们对我的帮助. 坐标天津某985大学,CS专业,北大信科直博offer. 这里为了保护隐私,我就不提我的排名了,但是我会告诉大家排名的影响 ...

  2. 周志华:华为-南大LAMDA人工智能联合实验室正式成立

      转载于 新智元   来源:新智元综合报道 编辑:金磊 [新智元导读]"到华为去",说到做到.昨日,南京大学计算机系主任.人工智能学院院长周志华发布朋友圈表示:华为-南大 LAM ...

  3. 清华软院、清华计科、南大计算机、中科院自动化所夏令营保研过程贴

    写在前面 夏令营完回家躺尸了一周,我的天不努力真的太舒服了吧.现在写一下这艰难的保研历程. 开始深入了解保研是在今年三月份开学这样子,没事儿翻翻想去的学校的官网,看看老师,看看导师评价网. 准备保研一 ...

  4. 记2019南大计算机本科生开放日/夏令营

    前言 [最近更新:2019.10.2] 记录南大夏令营的全程,包括准备阶段和夏令营阶段以及夏令营之后. 记录一些保研的经验,注意点.写了很多给学弟学妹们的话,希望你们保研能够顺利,避免踩坑. 记录自己 ...

  5. 2020级清华北大上交南大计算机保研经历

    记录保研过程(反思与经验) 个人情况 东北嘻哈二校之一,计算机科学与技术专业,专业排名3/200+,综合排名7/200+,CET-6 526分,国奖.美赛M奖,几乎无科研经历. 夏令营和九推情况 根据 ...

  6. 保研夏令营后记(Lamda、同济、南大、中科大、自动化所)

    写在前面 今天是2019.8.23,夏令营结束刚好一个月.一直都想写点东西,记录一下自己保研的过程.此刻的我,正在湖北恩施清江河的游船上,没有手机信号的前提下,我终于能够放下手机,写下关于自己的一些保 ...

  7. 南大周志华清华胡事民入围院士候选!计算机领域共计7人

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2021 ...

  8. 南大周志华教授入围院士候选!计算机领域共计7人

    明敏 发自 凹非寺 来源 | 量子位 QbitAI 2021年中国科学院院士增选初步候选人名单现已公布. 人工智能领域有南京大学人工智能学院院长周志华教授.清华大学胡事民教授入围增选. 计算机领域共有 ...

  9. 南大人工智能AI学院夏令营面试经历

    本人情况:某辽宁末流985大学 项目接近0 有过一些编程奖项 我是凉了..写出来造福学弟学妹们把... 很惊喜,最终还是通过了,并且被录为了MCG实验室的学硕,这个结果我个人还是很满意的,之后就不再更 ...

  10. 【个人总结】2020计算机保研经历(北大信科、上交、浙大、南大、中科院)

    前言 在推免系统上确认录取已经过去一周了,心里的一块大石头也终于落下.几个月的跌宕起伏到现在还有些后劲,经历过迷茫与抑郁最终还是走了过来,也算是人生的一个转折点.想了想还是写点东西记录一下,调整好状态 ...

最新文章

  1. react input[type='number']
  2. 解决Extjs中textarea不支持keyup事件的问题
  3. 翻译: Waf 教程
  4. 内存管理vma_(十三)Linux内存管理之vma/malloc/mmap
  5. e300氛围灯哪里调节_奥迪Q5L安装原厂32色20灯源氛围灯
  6. Redis scan命令原理
  7. hsv白色h值是多少_使用Global Mapper给建筑轮廓SHP数据赋予高程值
  8. HDU - 2825 Wireless Password (AC自动机 + 状压dp)
  9. git版本管理工具学习
  10. ASP.NET Identity “角色-权限”管理 2
  11. 安卓端和IOS端小程序蓝牙通讯问题
  12. 吉利车机安装第三方软件教程(win10笔记本详细操作方法)
  13. 计算机考试表格中的透视图怎么弄,职称计算机考试:创建数据透视表
  14. 2020年基金收益盘点
  15. linux中prometheus的使用
  16. Windows Server 2012 R2 安装 Docker
  17. 构建模型——用Python构建logit、负二项回归、决策树与随机森林机器学习模型
  18. linux sqlite图形工具,SQLite 图形化管理工具
  19. Day4 Java—面向对象2
  20. 基于OSGi的企业级开发框架实践——OSGi Annotations

热门文章

  1. 安卓pdf阅读器_文石BOOX Nova3电子书阅读器到底值不值得买?Nava2老用户心得分享!(2020年双十一)...
  2. html鼠标悬停多个效果,33个jQuery与CSS3实现的绚丽鼠标悬停效果
  3. ZEMAX知识点:坐标间断面(coordinate break)
  4. AD 批量修改封装 元件以及封装的关系 以及快速查找器件
  5. 第五章 国内著名网络数据库系统
  6. 软件测试人员培养计划
  7. 云初起微方案中下单人、联系人、下载者三者之间是什么关系?
  8. 重庆计算机一级跟全国计算机一级都考什么,全国计算机等级考试一级都考什么内容?...
  9. 屏幕录像专家V7.5注册机
  10. java基于t-io框架实现区块链中的p2p网络构建模拟区块信息同步