微软提出CLIPBERT：通过稀疏采样的视频语言学习

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

视频和语言学习(例如，视频问答)的规范方法规定了一个神经模型，该模型可以从脱机提取的视觉模型中的密集视频特征和语言模型中的文本特征中学习。这些特征提取器是独立训练的，通常用于不同于目标域的任务，使得这些固定的特征对于下游任务来说不是最优的。此外，由于密集视频特征的高计算过载，通常很难(或不可行)将特征提取器直接插入现有方法中以便进行微调。为了解决这一难题，作者提出了一个通用框架CLIPBERT，该框架通过使用稀疏采样，在每个训练步骤中只使用一个或几个稀疏采样的视频短片段，从而为视频和语言任务提供了负担得起的端到端学习。实验text-to-video检索和视频问答6个数据证明CLIPBERT优于与(或)现有的方法,利用完整的视频,这表明端到端学习几个稀疏采样剪辑往往比使用更精确的人口从完整的视频中提取离线特性,证明了众所周知的less-is-more原则。数据集中的视频来自不同的领域和长度，从3秒的通用域GIF视频到180秒的YouTube人类活动视频，显示了作者方法的泛化能力。提供了全面的消融研究和彻底的分析，以剖析导致这种成功的因素。

代码链接：https://github.com/jayleicn/ClipBERT

论文创新点

作者的贡献有三方面:

(i)作者提出了CLIPBERT，一种新的端到端学习框架，用于视频+语言任务。实验表明，在不同的视频文本任务(平均视频长度从几秒到三分钟不等)中，CLIPBERT获得了优于现有方法的性能。

(ii)作者的研究表明，少即是多:提出的端到端训练策略使用单个或几个(较少)稀疏采样的视频片段通常比使用密集提取视频特征的传统方法更精确。

(iii)作者证明了图像-文本预训练有利于视频-文本任务。作者还提供了全面的消融研究，揭示了导致CLIPBERT成功的关键因素，以期启发更多的未来工作。

框架结构

CLIPBERT架构概述。为简单起见，作者只展示了对单个采样剪辑产生预测的示例。当使用多个剪辑时，他们的预测融合在一起作为最终预测。

实验结果

结论

作者提出了一种端到端视频和语言学习的通用框架CLIPBERT，该框架采用稀疏采样，在每个训练步骤中只使用少量采样的视频短片段。在不同的任务中进行的实验表明，CLIPBERT的性能优于(或与)最先进的方法，具有密集的离线采样特征，这表明少即是多的原则在实践中是非常有效的。综合消融研究揭示了导致这种成功的几个关键因素，包括稀疏采样、端到端训练和图像-文本预训练。

论文链接：https://arxiv.org/pdf/2102.06183.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

- END -

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

微软提出CLIPBERT：通过稀疏采样的视频语言学习相关推荐

UCSB微软提出VIOLET，用Masked Visual-token Modeling进行端到端的视频语言学习！性能SOTA...
关注公众号,发现CV技术之美 ▊ 写在前面视频语言(VidL)建模的一个巨大挑战在于,从图像/视频理解模型提取的固定视频表示与下游VidL数据之间的脱节 .最近的研究试图通过端到端的训练来解决这个问 ...
微软提出第一个端到端的Video Captioning方法：SWIN BERT，涨点显著！
关注公众号,发现CV技术之美本文分享论文『SWIN BERT: End-to-End Transformers with Sparse Attention for Video Captioning』 ...
Align and Prompt：SalesforceANU提出ALPRO，进行细粒度的视频文本对齐！代码已开源！...
关注公众号,发现CV技术之美本文分享论文『Align and Prompt: Video-and-Language Pre-training with Entity Prompts』,由 Sales ...
【综述】基于Transformer的视频语言预训练
关注公众号,发现CV技术之美 ▊ 1. 论文和代码地址 Survey: Transformer based Video-Language Pre-training 论文地址:https://arxiv ...
视频预训练界的HERO！微软提出视频-语言全表示预训练模型HERO，代码已开源！...
关注公众号,发现CV技术之美 ▊ 写在前面在本文中,作者提出了HERO,一个新的大规模视频+语言综合表示学习框架.HERO以层次结构编码多模态输入,其中视频帧的局部上下文通过多模态融合被跨模态Tr ...
NeurIPS2021 VALUE：快来刷榜吧！微软提出视频多模态新基准，同时含检索、caption、QA等多个任务！...
关注公众号,发现CV技术之美文中提出 NeurIPS 2021 论文『VALUE: A Multi-Task Benchmark for Video-and-Language Understandi ...
COCO新记录：60.6AP！微软提出采用注意力机制进行检测头统一的Dynamic Head
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达极市导读本文提出一种新颖的动态头框架,它采用注意力机制将不同的目标检测头进行统一.COCO数据集上实 ...
《CLIP2Video》-腾讯PCG提出CLIP2Video，基于CLIP解决视频文本检索问题，性能SOTA！代码已开源！...
关注公众号,发现CV技术之美 ▊ 写在前面在本文中,作者提出了CLIP2Video网络,以端到端的方式将图像语言预训练模型转换为视频文本检索模型.视频和语言学习领域的主流方法试图从大规模视频文本数据 ...
Mobile-Former来了！微软提出：MobileNet+Transformer轻量化并行网络
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达转载自:集智书童 Mobile-Former: Bridging MobileNet and Transfo ...

微软提出CLIPBERT：通过稀疏采样的视频语言学习

微软提出CLIPBERT：通过稀疏采样的视频语言学习相关推荐

最新文章

热门文章