作者 | 吴捷

编辑 | Camel

本文对中山大学、北京航空航天大学、DMAI合作完成,被AAAI2020录用的一篇关于多模态视频理解的论文《Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video》进行了解读。

论文链接:http://colalab.org/media/paper/AAAI2020-Tree-Structured.pdf

代码链接: https://github.com/WuJie1010/TSP-PRL

论文动机

Temporally Language Grounding in Video (自然语言描述的视频片段定位)是视频理解中一项新的具有挑战性的任务,其目标是确定视频中与给定句子描述相对应视频片段的时间边界。该任务需要对语言和视频等模态进行融合理解,并且建模语言和视觉模态之间的联合语义关系。现有的方法大多效率低下且灵活性不高,依赖于稠密的滑动窗口,需要对许多交叉的滑动窗口进行匹配或者穷举搜索;另一方面,现有方法缺乏可解释性,偏离了人的推理机制。

当人们在视频中定位描述时,通常假设一个初始的视频片段边界,比较和分析句子描述和边界内视频片段之间的语义差异。然后逐步执行一系列连续动作,如缩放或移动来调节边界。深入研究人类的思维范式,人们通常会进行出一个从粗到细的思考过程,从而做出一个更为合理和可解释的决定。这种自上而下的由粗到细的推理模式已经在机器翻译、文本摘要等任务中得到了探索。

图1:TSP-PRL将该任务制定成一个由粗到细的迭代优化过程。

基于此,我们提出了一种新的基于树结构策略的渐进强化学习(TSP-PRL)框架,采用迭代优化过程来对边界进行顺序调节。该框架可以有效地分解复杂的行动策略,在增加搜索空间的同时减少搜索步骤的数量,以更合理的方式获得更佳的结果。

论文方法

树结构策略

在本论文中,我们将该任务制定为一个马尔可夫决策过程,它被表示为状态s∈S, 动作元组 和转移函数 。TSP-PRL中的树结构策略由根策略和叶策略组成, 和 分别表示根策略和叶策略的动作选择。TSP-PRL根据智能体移动距离和方向将所有原始动作分为与语义概念相关的五类:尺度变化、显著左移、显著右移、轻微左调整和轻微右调整。

这些语义概念被明确地表示为树形结构根策略的分支,根策略首先粗略地估计了能够最大程度减少语义差距的分支,接着叶策略基于所选分支推理一个更加细化的动作,从而调整边界。模型代理反复调用树结构策略,以获得一系列连续的原子动作,从而消除语义间隙,逐步获得准确的时间边界。

图2:TSP-PRL框架的流程图。

根策略旨在学习在以下不同情况下从调用正确的叶策略:

1)当预测边界的尺度与正确边界的尺度不匹配时,应选择尺度变换策略;

2)当预测边界远离正确边界时,智能体应执行显著左移或显著右移策略;

3)当预测边界于正确边界有一定的交集但有些偏差时,智能体应执行轻微左调整和轻微右调整策略。

在每个时间步骤中,树结构策略首先从根策略 中采样 ,接着从与所选语义分支相关的叶策略πlπl中采样送入环境的动作: 。

渐进强化学习策略

树结构策略通过渐进强化学习进行优化。渐进强化学习任务导向的奖励设置需要能够提供正确的信用分配,并逐步地优化根策略和叶策略,鼓励智能体采取较少的步骤以获得准确的定位结果。我们定义了两个面向任务的奖励函数,第一个奖励为是叶奖励 ,它反映了动作 对当前环境的影响。它可以通过时间IoU,即 的变化情况直接在环境中获得:

第二个奖励是根奖励 ,由于根策略执行的操作不直接与环境交互,为了提供全面和正确的信贷分配, 被定义为包括两个奖赏项:1)内在奖励项反映了 对语义分支选择的选择好坏;2)外部奖励项反映了所选分支执行的后续动作对环境的影响。为了估计根策略选择高级语义分支的能力,该模型遍历所有可能的分支,从而产生五种不同的IoU。这五个IoU中的最大IoU被定义为 。接着根奖励 设计如下

图3:树结构策略的迭代优化流程。

同时优化根,叶策略会导致训练过程的不稳定。为了避免这种情况,我们设计了一个渐进强化学习优化过程:对于每一组 迭代,保持一个策略固定,只训练另一个策略。当达到 迭代时,它会切换训练的策略。基于树形结构策略的渐进强化学习可概括为:

其中, 是指示选择训练策略的二元变量。 表示整个培训过程中的迭代次数。 是除法运算的下界整数, 是模函数。 和 分别代表根叶策略的损失函数。这两种策略在训练过程中相互促进,叶策略为根策略提供准确的内在奖励,而根策略选择合适的高层语义分支来进一步细化叶策略。这种渐进式优化确保了智能体在强化学习的设置中获得稳定和卓越的性能。

实验结果

树结构策略的有效性

为了验证树结构策略的重要性,我们设计了一个扁平策略,表示为``Ours w/o TSP-10'‘,它是在TSP-PRL上删除了树结构策略,将状态特征直接映射到一个原始动作中。实验结果表明随着探索步数的减少,它的性能会显著下降,这表明扁平策略在很大程度上依赖于步数以获得更好的结果。

然而,我们的方法能够以较少的步骤获得优异的性能。为了进一步探讨树型策略是否能更好地感知环境状态和分解复杂的策略,我们总结了在每个时间步和IoU间隔选择高层语义分支的比例。

我们可以观察到,扁平策略总是倾向于选择基于精细调整的分支,对时间步长和IoU不敏感。然而TSP-PRL在最初的几个步骤中设法选择基于显著移动的分支,以更快地减少语义鸿沟。

当IoU增大或时间步长增大时,精细调整型分支逐渐占主导地位,对边界进行精细调节。这个发现表明树结构策略有助于有效地分解复杂的行动策略,以提高发现扁平策略无法学习的复杂策略的能力。

与最先进方法的对比

在Charades-STA, ActivityNet数据集的实验结果证明,TSP-PRL在这两个数据集上能达到了最先进的性能。

TSP-PRL与基于监督学习(SL)的方法相比,能够获得更灵活的边界,避免搜索和穷举滑动窗口。SL方法很容易受到过度拟合的困扰,并且像一个缺乏可解释性的黑盒子一样处理这个任务。

而TSP-PRL有助于实现更有效和更具启发性的定位结果。消融实验结果还表明,TSP-PRL可以(1)有效地提高发现扁平策略(非树状策略)无法学习的复杂政策的能力;(2)提供更合适的信贷分配,逐步优化树形结构政策;(3)确定更准确的停止信号。

更多AAAI 2020信息,将在「AAAI 2020 交流群」中进行,加群方式:添加AI研习社顶会小助手(AIyanxishe2),备注「AAAI」,邀请入群。

AAAI 2020 论文集:AAAI 2020 论文解读会 @ 望京(附PPT下载)

AAAI 2020 论文解读系列:

01. [中科院自动化所] 通过识别和翻译交互打造更优的语音翻译模型

02. [中科院自动化所] 全新视角,探究「目标检测」与「实例分割」的互惠关系

03. [北理工] 新角度看双线性池化,冗余、突发性问题本质源于哪里?

04. [复旦大学] 利用场景图针对图像序列进行故事生成

05. [腾讯 AI Lab] 2100场王者荣耀,1v1胜率99.8%,腾讯绝悟 AI 技术解读

06. [复旦大学] 多任务学习,如何设计一个更好的参数共享机制?

07. [清华大学] 话到嘴边却忘了?这个模型能帮你 | 多通道反向词典模型

08. [北航等] DualVD:一种视觉对话新框架

09. [清华大学] 借助BabelNet构建多语言义原知识库

10. [微软亚研] 沟壑易填:端到端语音翻译中预训练和微调的衔接方法

11. [微软亚研] 时间可以是二维的吗?基于二维时间图的视频内容片段检测

12. [清华大学] 用于少次关系学习的神经网络雪球机制

13. [中科院自动化所] 通过解纠缠模型探测语义和语法的大脑表征机制

14. [中科院自动化所] 多模态基准指导的生成式多模态自动文摘

15. [南京大学] 利用多头注意力机制生成多样性翻译

16. [UCSB 王威廉组] 零样本学习,来扩充知识图谱(视频解读)

17. [上海交大] 基于图像查询的视频检索,代码已开源!

18. [奥卢大学] 基于 NAS 的 GCN 网络设计(视频解读)

28. [中科院&云从科技]:双视图分类,利用多个弱标签提高分类性能

树状图栏目切换_AAAI 2020 | 中山大学HCP实验室:基于树状结构策略的渐进强化学习,代码已开源...相关推荐

  1. R语言ggplot2可视化:为层次聚类树状图dendrogram中的簇进行着色、在树状图dendrogram中为不同的层次聚类簇配置不同的色彩

    R语言ggplot2可视化:为层次聚类树状图dendrogram中的簇进行着色.在树状图dendrogram中为不同的层次聚类簇配置不同的色彩 #层次聚类树状图dendrogram labs = pa ...

  2. ECCV 2020 | 空间-角度信息交互的光场图像超分辨,性能优异代码已开源

    光场相机可以记录当前场景不同视角的图像,每个视角图像的上下文信息(空间信息)与不同视角之间的互补信息(角度信息)都有助于提升图像超分辨的性能. 近日,来自国防科技大学.上海科技大学等单位的学者提出了新 ...

  3. Tree树状图的动态增删查改(上)生成树状图

    一.刚学习项目里就有使用到树状图这个功能,树状图这个功能是要用到插件才能做的,我目前发现有两个插件的样式是比较好看的,一个是Layui里面自带的树组件,不过它的文档写的挺少的,而且看不懂:另一个是jq ...

  4. android饼状图简书,自定义 view 练手 - 简单的饼状图

    今天咱们来一个例子练练手,饼状图这样的图表算是最好的了,复杂的话可以很复杂, 采用 surfaceview + 动画 可以使用很优秀的观感体验:简单的话可以很简单,仅仅画出图来就行,不用考虑动画啥的 ...

  5. mysql 统计做饼状图_使用Highcharts结合PHP与Mysql生成饼状图

    我们在做复杂的数据统计功能时会用到饼状图,饼状图用整个圆表示总体的数量或整体值1,用圆内各个扇形的大小表示各部分数量或该部分占总体的百分比,它可以清晰直观的表示各部分之间以及各部分与整体之间的数量关系 ...

  6. 安卓饼状图设置软件_安卓(Android)开发之自定义饼状图

    先来看看效果图 先分析饼状图的构成,非常明显,饼状图就是一个又一个的扇形构成的,每个扇形都有不同的颜色,对应的有名字,数据和百分比. 经以上信息可以得出饼状图的最基本数据应包括:名字 数据值 百分比 ...

  7. 怎么用python画饼状图_如何使用python的pygal模块画饼状图

    python是一个很有趣的语言,可以在命令行窗口运行.python中有很多功能强大的模块,这篇经验告诉你,如何使用python的pygal模块,画饼状图. 工具/原料 windows系统电脑一台 py ...

  8. python绘制饼状图 标题_Python使用matplotlib的pie函数绘制饼状图功能示例

    本文实例讲述了Python使用matplotlib的pie函数绘制饼状图功能.分享给大家供大家参考,具体如下: #coding=utf8 import matplotlib as mpl import ...

  9. java饼状图_使用Vue+echars+Java后端数据生成饼状图

    效果图: 后端controller代码: //图表 @AuthIgnore @PostMapping("getData") public R getData() { long[] ...

最新文章

  1. 负起责任、审慎对待论文创新和性能指数,ACM Fellow罗杰波教授分享他的审稿经验...
  2. python使用笔记:sys.argv[]的使用
  3. JS 内置对象 String对象
  4. Lintcode 729. 阶乘除法的最后一位数
  5. ContentProvider中gettype() 和MIME类型的理解
  6. java判断是否失效_java – 如何在输入有效之前检查无效输入和循环?
  7. 登陆界面HTML验证码生成
  8. matlab 展开多项式,matlab中freqz的用法以及多项式的展开
  9. 转载:细数飞机设计专用软件,知道5个你就很牛了
  10. 银联二维码支付之主扫、被扫、查询接口
  11. 小米平板1刷LineageOS16
  12. 电脑ping,怎么ping网速,详细教您ping网络的方法
  13. WIN7常用使用设置
  14. 磁盘阵列怎么组linux系统,Linux系统下如何设置磁盘阵列?
  15. Java - 多线程
  16. IT和商业之间的纽带——商业数据分析师
  17. Druid连接池报错:org.postgresql.util.PSQLException: FATAL: too many connections for role “*********“
  18. LINUX系统编程__文件编程__open与fopen的区别
  19. What's App has the Qt?
  20. 支付接口如何申请?商户申请条件是什么?

热门文章

  1. 【WSN同步捕获】无线传感器网络的同步捕获和跟踪误差的MATLAB仿真
  2. 交叉编译器 arm-linux-gnueabi 和 arm-linux-gnueabihf 的区别
  3. 从零开始的AI·吃透kNN算法,学完我悟了(附实例代码)
  4. [2019.1.14]BZOJ2005 [Noi2010]能量采集
  5. day25 Python四个可以实现自省的函数,反射
  6. 十个有用的linux命令行技巧
  7. 恶意网址提醒服务见实效
  8. CMDB经验分享之 – 剖析CMDB的设计过程
  9. Time包详解二-timer和ticket.html
  10. 对于生活我选择了无奈