关注公众号,发现CV技术之美

 写在前面

在本文中,作者总结了针对视频和语言理解评估(VALUE)挑战的方法。作者提出了一种CLIP增强方法 ,将图像文本预训练知识融入到下游视频文本任务中。结合其他几项改进的设计,本文的方法在VALUE基准上的Meta Ave得分相比于之前的SOTA水平提高了2.4%。

 1. 论文和代码地址

A CLIP-Enhanced Method for Video-Language Understanding

论文地址:https://arxiv.org/abs/2110.07137

代码地址:未开源

 2. Motivation

视频语言理解越来越受到研究界的关注。最近,NeurIPS2021上提出了视频和语言理解评估(VALUE)基准,这是一个由3类任务(VideoQA, Retrieval, Captioning)和11个数据集组成的统一基准。不同的视频领域和任务类型使其成为一个非常具有挑战性的基准。

受大规模图像-文本预训练(如CLIP)快速发展的启发,作者认为从图像-文本对中学习的知识将有助于视频文本任务。一些开创性的作品利用了预训练CLIP模型,并展示了在文本视频检索任务上的SOTA性能。然而,这些现有的工作是专门为检索任务设计的,因此不能适应其他类型的任务。

作者将预训练好的图像文本知识(即CLIP模型)纳入任务无关框架(即HERO模型),并在各种下游任务(如Retrieval, Captioning)上取得显著的性能改进。结合一些trick,本文提出了一种VALUE基准的混合策略,比baseline高出2.4%的Meta Ave分数。

总的来说,本文的策略在两个方面不同于HERO Baseline:

1)修改了模型架构,以纳入CLIP模型的知识 ,如上图所示;

2)对于不同的下游任务,作者使用不同的微调设置

 3. 方法

本文的方法建立在HERO模型的基础上,HERO模型是基于VALUE基准的baseline模型。在本节中,作者首先简要介绍HERO方法,然后介绍本文改进的设计。

3.1. Baseline Method

如上图所示,HERO由三个核心组件组成:

1)用于文本输入的嵌入层

2)一种用于视频字幕多模态融合和查询表示的跨模态Transformer

3)用于从收集的视频特征学习上下文视频表示的时间Transformer

在HERO中需要处理四个预训练任务(如下所示),MFM(Masked Frame Modeling )和MLM(Masked Language Modeling )与BERT相似,将单词token和帧token用mask token替换之后,在预训练的过程中根据上下文来重建这些被mask的token的信息。

此外,在训练的时候只mask一个模态,降低训练的难度。VSM(Video-Subtitle Matching )旨在学习局部对齐(在视觉帧和字幕句子之间)和全局对齐(在视频片段和字幕句子序列之间)。FOM(Frame Order Modeling )是通过学习随机重排序帧的原始顺序来建模视频的顺序特征的。

3.2. Improved Designs

除了VATEX-EN-R和VATEX-EN-C之外,作者在所有任务中都遵循HERO的结构。对于VATEX任务,作者通过将默认的Roberta文本嵌入层替换为CLIP的文本编码器,构建了CLIP增强的模型,如上图所示。

作者在调整不同任务时使用略有不同的设置:

1)对于QA任务,作者采用全任务训练(AT)设置;对于其他任务,作者采用单任务训练(ST)设置。

2)对于yc2r、yc2c、how2r任务,作者使用resnet+slowfast特征,而对于其他任务,作者使用clipvit+slowfast特征。这些视觉特征主要由VALUE挑战提供。

3)对于yc2r、yc2c、tvc任务,作者使用训练集和验证集数据进行网络调整。

4)作者使用除CLIP增强设置(即VATEX-EN-R和VATEX-EN-C任务)之外的所有任务的HERO预训练权重初始化模型。

在预训练或网络微调期间,作者没有使用额外的数据或特征,也没有使用模型集成技术。

 4.实验

4.1. Results on Test (leaderboard) Set

应用上面所述的所有改进设计,与baseline相比,本文的混合策略实现了显著改进,如上表所示。

4.2. Analysis of our CLIP-Enhanced Strategy

为了评估本文的CLIP增强策略的效果,作者在VATEX-EN-R和VATEX-EN-C验证集上,将本文的方法与SOTA的方法进行比较,结果如上表所示。

除了VATEX-EN-R任务的AT→ST baseline外,本文的CLIP增强方法实现了最佳性能。然而,在检查训练细节后,作者发现,最初的改进确实来自所有任务训练(AT)期间的数据泄漏,即VATEX-EN-R任务的验证样本意外包含在VATEX-EN-C任务的训练集中。

剔除不公平的高分后(标有*),本文的CLIP增强方法取得了最佳性能,明显优于基线(VATEXN-R为2%,VATEX-EN-C为3%)。

然而,作者观察到,本文的CLIP增强方法对于其他类型的数据集(例如how2、tv)是失败的。主要原因似乎是how2或tv数据集与CLIP模型预训练的图像-文本对大不相同。

 5. 总结

今年年初提出的CLIP模型通过简单的结构、大规模的图文预训练,实现了非常好的将图片和文本映射到相同语义空间的能力。目前,也有不少的工作尝试将CLIP学习到图文知识迁移到视频-文本中。

在本文中,作者也尝试了将CLIP的知识迁移到VALUE这个视频-文本的多任务基准上,因此,作者基于HERO模型,将CLIP的预训练的结构和参数加入到HERO模型中,达到了显著的性能提升。

本文中,相对来说,作者的改进还是非常简单的,只是将文本编码器做了一下替换。相信在接下来的一段时间里,CLIP作者泛化能力超强的视觉语言模型,将会进推动多模态领域的一步发展。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

欢迎加入「视觉语言交流群

用CLIP增强视频语言的理解,在VALUE榜单上SOTA!相关推荐

  1. (转)【最新】抖音相关工具合集--在线观看,网页版,去水印下载视频,下载音乐,音乐榜单等

    抖音去水印:https://welltool.net 这个工具除了支持单视频去水印,还支持用户发过的视频,抖音话题视频列表,使用音乐发过的视频列表批量下载 除了下载无水印视频,还是支持下载背景音,视频 ...

  2. 平安金融壹账通登顶中文机器阅读理解CMRC竞赛榜单

    近日,在第三届中文机器阅读理解评测 (The Third Evaluation Workshop on Chinese Machine Reading Comprehension, CMRC 2019 ...

  3. UCSB微软提出VIOLET,用Masked Visual-token Modeling进行端到端的视频语言学习!性能SOTA...

    关注公众号,发现CV技术之美 ▊ 写在前面 视频语言(VidL)建模的一个巨大挑战在于,从图像/视频理解模型提取的固定视频表示与下游VidL数据之间的脱节 .最近的研究试图通过端到端的训练来解决这个问 ...

  4. 【2021年终盘点】12月全国气象短视频(快手、抖音)影响力榜单

    12月全国气象短视频(快手.抖音)影响力榜单昨天正式发布了,那就意味着2021年所有榜单的数据都有了(2021年4月-12月共9个月),可以进行一下2021年的盘点了,文末我附了部分账号获得抖音颁发的 ...

  5. TIOBE 5 月榜单:时隔五年,C 语言重返第一!

    来源 | 开源中国 TIOBE 已公布 2020 年 5 月的编程语言排行榜. 本期最大的亮点是 C 语言超越 Java,重返第一的位置.C 语言上一次排名第一,还是在 2015 年.在上个月的榜单中 ...

  6. 长电科技完成收购ADI新加坡测试工厂;Canva可画上线视频音乐功能;印孚瑟斯上榜福布斯全球企业2000强 | 全球TMT...

    今日焦点 长电科技完成收购ADI新加坡测试工厂 Canva可画上线视频音乐功能 印孚瑟斯上榜福布斯全球企业2000强 新国都支付与紫光国微达成战略合作 大公司动向 长电科技宣布已正式完成对Analog ...

  7. TIOBE 5月榜单:时隔五年,C语言重返第一

    TIOBE 已公布 2020 年 5 月的编程语言排行榜. 本期最大的亮点是 C 语言超越 Java,重返第一的位置.C 语言上一次排名第一,还是在 2015 年.在上个月的榜单中,两者的指数就已经非 ...

  8. TIOBE 6 月榜单: Python 有望超越 C 语言成为第一名

    整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 头图 | 下载于ICphoto TIOBE 官方最新发布了 6 月的编程语言榜单,这个月榜单中又有怎样的发展趋势? Python 有望成为 ...

  9. TIOBE12月榜单:Java重回第二,Python有望四连冠年度语言

    点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 前言 前几日为小伙伴介绍过DB-Engines 上公布的 ...

最新文章

  1. python opencv 官方文档里LaTeX公式不能正常显示怎么办?
  2. pymysql连接mysql_python使用MYSQL数据库
  3. 征战蓝桥 —— 2017年第八届 —— C/C++A组第6题——最大公共子串
  4. 改变listview中item选中时文字的颜色
  5. #6229. 这是一道简单的数学题(反演 + 杜教筛)
  6. SQL2005结合ROW_NUMBER()高效分页存储过程
  7. php教程目录,php基础入门篇-文件和目录操作_PHP教程
  8. pythonfor循环语句例子_Python for循环学习总结
  9. iPhone - 少一点自恋,多一点现实 !
  10. 微信小程序云开发教程-云函数获取用户授权信息
  11. Arcgis Android 基本概念 - 浅谈
  12. Presto常用命令:查看版本号
  13. MyBatis中出现Mapped Statements collection does not contain value 问题
  14. 使用github客户端上传本地项目到github
  15. PEP 635 – Structural Pattern Matching: Motivation and Rationale
  16. CentOS7像外部163邮箱发送邮件
  17. oracle的日期时间转换日期,oracle 的时间日期转换函数
  18. 浅谈机器人控制与仿真设计----RDS和ROS
  19. 三层网络渗透测试实验
  20. 最新QQ防洪跳转网站源码 带后台 可用版本

热门文章

  1. 【差分隐私的Advanced composition到底是什么?】差分隐私系统学习记录(四)
  2. C++/C--内存的四驱模型
  3. MyBatis框架 注解
  4. 小程序 - 参考数据 - ASC字符码表和常用的中文字符编码表
  5. 鸿蒙是否会开源,鸿蒙会不会开源?鸿蒙终于迎来新发展
  6. w10电脑c盘满了怎么清理_Win10专业版电脑c盘满了怎么清理?教你一招快速清理C盘...
  7. 可缩放的思维导图_成就销售王者的23大流程,配思维导图,可直接学习收藏
  8. python使用pip安装包_python的安装包pip命令基本用法
  9. debian9为什么默认是pip2_VirtualBox内刚刚安装完Debian9系统,也无法设置共享文件夹。解决的方法就是安装VirtualBox客户端增强包。...
  10. vue radio双向绑定_Vue 双向绑定