南京大学赵鹏：动态环境在线学习的算法与理论研究

不到现场，照样看最干货的学术报告！

嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，百度全力支持，读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年7月26日，第17期“AI未来说·青年学术论坛”百度奖学金特别专场论坛以“线上平台直播+微信社群图文直播”形式举行。南京大学赵鹏带来报告《动态环境在线学习的算法与理论研究》。

南京大学赵鹏做“动态环境在线学习的算法与理论研究”主题报告分享

赵鹏，南京大学计算机系在读博士生。主要从事机器学习与数据挖掘方面的研究，在ICML, AISTATS, AAAI, UAI, KDD, ICDM等会议发表多篇文章。曾获得2019年百度奖学金。

动态环境在线学习的算法与理论研究

首先，赵鹏介绍了动态环境下在线学习的研究动机。考虑监督学习这一经典的学习范式，其基本流程是通过一些有标记的训练样本执行学习算法获得学习模型，然后这个模型会在未见的测试样本上面进行预测。这里一个重要的潜在假设是：训练和测试样本的数据分布要是相同的。但是在很多真实情况中，训练和测试的分布往往是不同的。例如训练数据可能是一些标准格式的图片，如从电商网站上面找到的图片。但真实测试可能是办公室或实验室环境，因此训练和测试的数据分布有很大差异。如果不加以考虑这种分布变化，学习算法的性能及理论保障都会丧失。这还只是两阶段的分布变化，在很多真实的场景中，数据是以在线的方式获得的。例如视频图像、天气预测、语音识别等任务中，数据随时间不断累积，而且环境不断发生变化，因此数据分布也会不断发生变化。这就要求我们重新思考并发展一些技术以对这类场景进行建模和分析。这就是动态环境下在线学习算法设计和理论研究的整体出发点。

然后，赵鹏对动态在线学习问题进行了形式化。我们考虑的具体模型是在线凸优化（Online Convex Optimization,OCO）模型，该模型建模了学习者和环境不断交互的过程。在每一轮，学习者首先从凸集W指定一个决策点w_t(可以理解为一个模型),环境会选择一个凸损失函数，然后学习者会遭受损失并观测到函数的一定的信息，从而更新决策。以垃圾邮件判别为例，学习者就是学习器，初始为一个d维的w_t向量；之后来了一封邮件，我们希望判断它是垃圾邮件还是正常邮件。这就需要：第一步，获得它的属性信息，基于此可以做一个标记的预测。第二步，我们用真实的邮件标记定义出损失函数。通过该损失函数以及反馈的信息，我们就知道模型的表现，从而更新模型得到w_{t+1}。周此往复迭代这个学习过程。

同时，根据学习者能够接受到的环境信息，我们可把在线学习分为完全信息在线学习和部分信息在线学习,后者也称之为赌博机在线学习。完全信息在线学习好比赛马，一轮下来不仅知道押注的马的名次，其他马的名次也全都知道。赌博机在线学习好比玩多臂老虎机，一轮下来只知道选择的摇臂的奖赏，而不知道其他摇臂的情况。在这个报告中，我们主要关心赌博机在线学习，因为这个模型对真实世界建模的约束较少。OCO框架是一个非常有用的框架，在计算学习理论、计算经济学、信息论、理论计算机方面都有非常多的应用。

接下来，赵鹏介绍非稳态动态赌博机在线凸优化（BCO）方面的一些进展，包含单点反馈和两点反馈两种模型。在单点反馈模型中，学习者每轮只能送一个决策点（可以理解为模型），然后获得该点的函数值信息。注意，学习者只能获得函数值信息，没有函数梯度、Hessian矩阵等等，相当于是零阶优化的设定。两点反馈模型是上述单点反馈模型的泛化，学习者每一轮可以送两个决策点，然后获得这两个点的函数值信息。同样我们只有函数值的信息，而没有函数梯度、Hessian矩阵等信息。上述赌博机凸优化模型在网络路由、在线推荐、计算广告中都有非常广泛的应用。例如在线个性化推荐中，可以把广告主看作学习者，他需要从众多商品中挑选出客户可能感兴趣的一部分商品进行陈列，选出来的这些商品可以理解为上述模型中的一个单点决策。客户是否点击或者购买即为对广告主单点决策的反馈，而客户并不会给其他点（未展示商品）进行反馈。

紧接着，赵鹏介绍了针对BCO问题的评价指标。在线学习中一个广用的评价指标是regret（遗憾）。遗憾定义为算法产生序列的累计损失和离线算法的累计损失之差。但是这样的评价指标在动态场景中有一定不足之处，因为在动态环境下很难有一个固定的最优离线决策——固定的单点很难在动态环境中一直表现得很好。在动态环境下，每个时刻的最优决策都可能发生变化，这就要求我们考虑新的评价指标。一个做法是把求最小化操作放到求和号里面，这样展开后可以发现是将算法的决策跟每轮的最优决策进行对比，这样的评价指标称之为动态遗憾（dynamic regret）。进一步的，我们可以要求和任意一个决策序列进行比对，这样的评价指标更通用。

下面我们对三种评价指标做一个比对。大家最早关心的这类评价指标叫做 static regret，它适合于静态环境的在线学习，所有轮的决策只跟一个固定单点进行比较，比较偏乐观。第二个评价指标被称之为worst-case动态遗憾，它是和每一轮的最优值进行比较，比较偏悲观。特别是当环境并不是那么敌对，而只是有一些噪音，每轮函数的最优值可能会发生很大变化，如果强行去拟合每轮最优值就会产生过拟合的风险。最后一种，我们这里提的universal动态遗憾，它是和任意的决策序列进行对比，因此它更加自适应和一般化。而且注意到static遗憾和worst-case动态遗憾都可以看作是universal动态遗憾的特例。因此我们会特别关心这样一类评价指标。

上图中我们给出了动态赌博机凸优化问题的理论刻画。基于前面所述的universal动态遗憾的评价指标，我们设计了算法并证明了动态遗憾上界。同时，我们也给出了下界的分析以刻画问题难度。注意到，上下界中都包含一个P_T的项，它是对比序列的累积变化。当对比序列变化程度越大，就说明环境的动态程度越高，因此P_T这个量反映了环境的动态程度。当P_T比较大时，即环境动态程度比较大时，算法的动态遗憾上界会越松，BCO问题的下界也会越高，也就意味这个问题越难。当P_T比较小时，下界也会越低，问题也越简单，同时上界也会越紧，说明算法也会对应地表现得更好。这说明我们的算法可以自适应于环境的非稳定程度。

下面赵鹏从在线学习最常见的在线梯度下降优化算法开始讲起。介绍了该算法在动态赌博机场景中会遇到两个障碍：第一，BCO中没有函数梯度的反馈；第二，单一固定的步长很难适应于动态环境。赵鹏接下来的讲解围绕这两个点展开。

第一个想法是通过函数值来近似获得函数梯度。这里主要是使用文献[Flaxmanet al., 2015]中的技术，通过一个单点函数加扰动的做法获得函数梯度的无偏估计，可以证明它是这个函数平滑后的函数梯度的无偏估计。获得该梯度估计后，我们将其应用到在线梯度下降优化中便得到了Bandit Gradient Descent (BGD)算法。然后我们可以对BGD算法进行理论分析，推导发现动态遗憾的优化需要设置最优步长，然而最优步长需要提前预知环境的动态程度（即预知P_T），但真实情况下很难对动态环境有全面的把握。所以如何自适应步长也是一个挑战。下面我们会介绍如何自适应步长。

第二个想法就是用在线集成的想法来对冲环境的非稳定程度。主要分三步，第一步，把环境非稳态程度做一个离散化，通过log T数量级的点即可覆盖整个连续区间。第二步，对于步长池中选出每一个步长跑一个子算法。也就是说，如果步长池中有N个步长，则同时跑N个子算法。第三步，用在线集成的技术，将这些子算法的中间预测结果结合起来，从而得到每轮的最终预测。这样似乎看起来就已经解决问题了，但实际上在BCO设定下我们没法进行第二步，即没法跑多个子算法。这是因为在赌博机设定下缺乏足够的反馈（注意到我们每轮只有单点的函数值作为反馈）。而如果每一轮跑N个子算法，每轮最起码需要N个反馈，这在赌博机设定中是做不到的。这就需要进一步审视分析动态遗憾，我们发现本质上只需要优化平滑后的函数的动态遗憾即可，并证明这可以通过优化其线性化上界得到。基于此，我们设计了一种替代损失以供优化，从而可以在BCO设定下使用在线集成的方法。

最后，赵鹏做了总结。首先，这个工作引入并研究了动态环境下赌博机凸优化的问题，包括单点反馈和两点反馈模型。此外，设计了一种新颖的在线学习算法，并证明其具有良好的动态遗憾界保障。之后，通过下界的分析，对赌博机在线学习在动态遗憾这一评价指标下给出了难度的刻画。这个工作发表在AISTATS 2020上，长文版本在arXiv上可以看到，是在周志华老师的指导下，与王广辉同学、张利军老师共同完成的。

AI未来说*青年学术论坛

第一期数据挖掘专场

1. 李国杰院士：理性认识人工智能的“头雁”作用

2. 百度熊辉教授：大数据智能化人才管理

3. 清华唐杰教授：网络表示学习理论及应用

4. 瑞莱智慧刘强博士：深度学习时代的个性化推荐

5. 清华柴成亮博士：基于人机协作的数据管理

第二期自然语言处理专场

1. 中科院张家俊：面向自然语言生成的同步双向推断模型

2. 北邮李蕾：关于自动文本摘要的分析与讨论

3. 百度孙珂：对话技术的产业化应用与问题探讨

4. 阿里谭继伟：基于序列到序列模型的文本摘要及淘宝的实践

5. 哈工大刘一佳：通过句法分析看上下文相关词向量

第三期计算机视觉专场

1. 北大彭宇新：跨媒体智能分析与应用

2. 清华鲁继文：深度强化学习与视觉内容理解

3. 百度李颖超：百度增强现实技术及应⽤

4. 中科院张士峰：基于深度学习的通用物体检测算法对比探索

5. 港中文李弘扬：物体检测最新进展

第四期语音技术专场

1. 中科院陶建华：语音技术现状与未来

2. 清华大学吴及：音频信号的深度学习处理方法

3. 小米王育军：小爱背后的小米语音技术

4. 百度康永国：AI 时代的百度语音技术

5. 中科院刘斌：基于联合对抗增强训练的鲁棒性端到端语音识别

第五期量子计算专场

1. 清华大学翟荟：Discovering Quantum Mechanics with Machine Learning

2. 南方科技大学鲁大为：量子计算与人工智能的碰撞

3. 荷兰国家数学和计算机科学中心（CWI）李绎楠：大数据时代下的量子计算

4. 苏黎世联邦理工学院（ETH）杨宇翔：量子精密测量

5. 百度段润尧：量子架构——机遇与挑战

第六期机器学习专场

1. 中科院张文生：健康医疗大数据时代的认知计算

2. 中科院庄福振：基于知识共享的机器学习算法研究及应用

3. 百度胡晓光：飞桨（PaddlePaddle）核心技术与应用实践

4. 清华大学王奕森：Adversarial Machine Learning: Attack and Defence

5. 南京大学赵申宜：SCOPE - Scalable Composite Optimization for Learning

第七期自动驾驶专场

1. 北京大学查红彬：基于数据流处理的SLAM技术

2. 清华大学邓志东：自动驾驶的“感”与“知” - 挑战与机遇

3. 百度朱帆：开放时代的自动驾驶 - 百度Apollo计划

4. 北理宋文杰：时空域下智能车辆未知区域自主导航技术

第八期深度学习专场

1. 中科院文新：深度学习入门基础与学习资源

2. 中科院陈智能：计算机视觉经典——深度学习与目标检测

3. 中科院付鹏：深度学习与机器阅读

第九期个性化内容推荐专场

1. 人民大学赵鑫：基于知识与推理的序列化推荐技术研究

2. 中科院赵军：知识图谱关键技术及其在推荐系统中的应用

第十期视频理解与推荐专场

1. 北京大学袁晓如：智能数据可视分析

第十一期信息检索与知识图谱专场

1. 北京邮电大学邵蓥侠：知识图谱高效嵌入方法

2. 人民大学徐君：智能搜索中的排序-突破概率排序准则

3. 百度周景博：POI知识图谱的构建及应用

4. 百度宋勋超：百度大规模知识图谱构建及智能应用

5. 百度冯知凡：基于知识图谱的多模认知技术及智能应用

第十二期年度特别专场

1. 复旦大学桂韬：当NLP邂逅Social Media--构建计算机与网络语言的桥梁

2. 清华大学董胤蓬：Adversarial Robustness of Deep Learning

3. UIUC罗宇男：AI-assisted Scientific Discovery

4. 斯坦福应智韬：Graph Neural Network Applications

第十三期 AI助力疫情攻关线上专场

1. 清华大学吴及：信息技术助力新冠防控

2. 北京大学王亚沙：新冠肺炎传播预测模型

3. 百度黄际洲：时空大数据与AI助力抗击疫情——百度地图的实践与思考

4. 百度张传明：疫情下的“活”导航是如何炼成的

第十四期深度学习线上专场

1. 中国科学院徐俊刚：自动深度学习解读

2. 北航孙钰：昆虫目标检测技术

3. 百度尤晓赫：EasyDL，加速企业AI转型

4. 百度邓凯鹏：飞桨视觉技术解析与应用

第十五期大数据线上专场

1. 复旦赵卫东：大数据的系统观

2. 中科大徐童：AI×Talent数据驱动的智能人才计算

3. 百度李伟彬：基于PGL的图神经网络基线系统

4. 中科大张乐：基于人才流动表征的企业竞争力分析

第十六期 NLP前沿技术及产业化线上专场

1. 复旦大学黄萱菁：自然语言处理中的表示学习

2. 中科院刘康：低资源环境下的事件知识抽取

3. 百度何中军：机器翻译 —— 从设想到大规模应用

4. 百度孙宇：百度语义理解技术ERNIE及其应用

5. 哈佛邓云天：Cascaded Text Generation with Markov Transformers

6. 复旦大学桂韬：Uncertainty—Aware Sequence Labeling

推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集：34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

南京大学赵鹏：动态环境在线学习的算法与理论研究相关推荐

（附源码）springboot在线学习网站毕业设计 751841
spring boot在线学习网站摘要信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻 ...
在线学习(Online learning)与离线学习（Offline learning）
目录简介离线学习在线学习在线学习算法的分类在线学习算法的优化对比总结参考文献简介机器学习领域中,可将机器学习算法分为在线学习和离线学习.需要根据数据选择不同的线性可分和线性不可分的 ...
基于优化反馈的组合在线学习
点击上方蓝字关注我们基于优化反馈的组合在线学习孔芳1, 杨悦然1, 陈卫2, 李帅1 1 上海交通大学约翰·霍普克罗夫特计算机科学中心,上海 200240 2 微软亚洲研究院,北京 100080 ...
计算机辅助电话访问的优势多选题,2013年春奥鹏《现代远程学习概论》在线作业1多选题...
<2013年春奥鹏<现代远程学习概论>在线作业1多选题>由会员分享,可在线阅读,更多相关<2013年春奥鹏<现代远程学习概论>在线作业1多选题(11页珍藏版) ...
动态环境下的SLAM：DynaSLAM 论文学习笔记
动态环境下的SLAM:DynaSLAM 论文学习笔记这篇文章论文摘要系统流程相关环节的实现方法神经网络检测图中动态物体(Mask R-CNN) Low-Cost Tracking 使用多视图 ...
（附源码）ssm在线学习系统毕业设计 261624
摘要 21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化的管理,使信息存储达到准 ...
Springboot+mysql在线学习交流平台-计算机毕业设计源码46186
摘要随着科学技术的飞速发展,社会的方方面面.各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,在线学习交流平台当然也不能排除在外.在线学习交流平台是以实际运用为开发背景,运用软 ...
面向动态环境基于点的语义SLAM系统
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者:robot L | 来源:知乎 https://zhuanlan.zhihu.com/p/133 ...
图系列|7篇动态时空图网络学习必读的顶会论文
Dynamic Graph Embedding 整理:AIGraph 内容:7篇Dynamic Graph Embedding相关的内容简介:本文汇总了7篇Dynamic Graph Embeddi ...

南京大学赵鹏：动态环境在线学习的算法与理论研究

南京大学赵鹏：动态环境在线学习的算法与理论研究相关推荐

最新文章

热门文章