视频检索,CLIP4clip中CLIP指OpenAI的CLIP模型,clip指的是视频中的clip。CLIP模型很适合做Retrieval(检索)任务,因为它就是做图像和文本之间相似性,根据相似性可以去做ranking、matching以及retrieve等任务。而且由于双塔结构(图像文本编码器分开),得到的image embedding和text embedding做一步点乘就可以计算相似度,因此非常容易扩展

文本这边没什么区别,就是文本信息经过文本编码器得到text embedding。视频这边多了时间维度,由一个个视频帧组成。n个视频帧每一帧打成patch作为编码器输入,得到n个CLS Token(对应帧数)。一个文本特征对应n个图像特征。

本文是一个Empirical Study,就把以往的方法都尝试了一遍,选出来最好的。主要尝试了三种维度不匹配的相似度方式

第一种最简单的方式,不带任何参数(不需要学习),用了一个平均池化操作,在时间维度上取平均,这样文本信息和视频信息的维度就对应起来了,就可以计算相似度了。但是这种方法没有考虑时序的特性,也就是前后帧之间先后关系。例如一个人坐下和站起是两个相反的过程,但是使用平均池化的操作就很可能无法识别出两个动作的区别。即使如此,这种方式也是目前最被接受的方式。

第二种方式意在把时序性融合进去,时序建模常用LSTM,将n个帧的特征作为LSTM的输入,最后的输出就是与文本特征维度对应的一个特征,而且融合了时序信息。现在使用加入了位置信息(position embedding)的Transformer代替LSTM来提取具有时序信息的特征。

第二种方式融合的时候是Late Fusion,就是后期融合,文本和图像特征抽完之后再去融合。第三种方式就考虑将一个文本特征先和n个帧的视频图像特征融合,然后通过一个MLP去算相似度。这样不仅实现了时序信息的融合,还实现了文本和视频帧的融合。最后所有的特征(1个文本特征和n个视频帧的图像特征)都变成一个特征,然后去算相似度。

公式中T代表类别编码,有文本类别和视频帧类别两种,P代表位置编码。然后通过两个全连接层(FC)中间加一个Rule激活函数计算相似度。

在MSR-VTT数据集上结果如图,CLIP4clip的方法Recall 达到了40左右的结果,相较于其他方法提升了20多个点。

图b是zero-shot的结果,MIL-NCE的方法CLIP的方法进行比较,数据集规模分别是100million和400million,差不得不多。但是使用了CLIP直接zero-shot就有了31.2的点,比原来方法都要高。CLIP模型迁移性很好,直接拿来视频这边也表现很好。

图c主要是想说明M的数据量的情况,表a在7k个训练数据上训练,表c在9k个训练数据上训练。随着训练数据的增加,结果又能提升。对比三种求相似度的方式,在少量训练数据情况下,取平均的方式最好达到了42.1个点。因为CLIP在400million数据集上做预训练,如果下游任务数据不够多,不建议去做参数的改变,因此不带参数的平均池化的方式最有效。而随着训练数据的增加9k,采用带有位置编码的Transformer效果最好,达到了44.5个点。这种现象在其他数据集也有类似现象,Mean pooling效果一般是最好的。

结论,作者就是使用预训练好的CLIP在video text retrieval领域。首先,使用了三种计算相似度的方式,mean pooling的效果简单高效,早起融合的tighr type反而效果不好,这很可能是下游任务数据太少造成的过拟合等问题(下游任务数据少,模型非常复杂)。其次,图像转到视频,存在domain gap(域偏差),如果视频这边找到足够多的数据集再去预训练,这样迁移的效果会更好。另外,作者尝试了2Dpatch和3Dpatch(老师这里应该是口误了,原文表8以及4.7节说明了2Dpatch效果要好一些)。最后,CLIP用在video text retrieval领域学习率是一个非常敏感的参数。

原文中表8以及4.7节说明,我们认为3D patch能提取每一帧间的时序信息并生成更好的区分特征,因此3D patch会有更好的表现。但是结果与我们所期望的不一致,3D patch 产生了比2D patch更为糟糕worse的结果。作者也给出了解释,原因就是CLIP预训练就是在2D图像上预训练的,这种差异就造成了使用3D进行初始化时很难学到时序信息。

python的学习还是要多以练习为主,想要练习python的同学,推荐可以去看,他们现在的IT题库内容很丰富,属于国内做的很好的了,而且是课程+刷题+面经+求职+讨论区分享,一站式求职学习网站,最最最重要的里面的资源全部免费。

牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网求职之前,先上牛客,就业找工作一站解决。互联网IT技术/产品/运营/硬件/汽车机械制造/金融/财务管理/审计/银行/市场营销/地产/快消/管培生等等专业技能学习/备考/求职神器,在线进行企业校招实习笔试面试真题模拟考试练习,全面提升求职竞争力,找到好工作,拿到好offer。https://www.nowcoder.com/link/pc_csdncpt_ssdxjg_python

他们这个python的练习题,知识点编排详细,题目安排合理,题目表述以指导的形式进行。整个题单覆盖了Python入门的全部知识点以及全部语法,通过知识点分类逐层递进,从Hello World开始到最后的实践任务,都会非常详细地指导你应该使用什么函数,应该怎么输入输出。

牛客网(牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网)还提供题解专区和讨论区会有大神提供题解思路,对新手玩家及其友好,有不清楚的语法,不理解的地方,看看别人的思路,别人的代码,也许就能豁然开朗。

快点击下方链接学起来吧!

牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网

参考:

参考:CLIP 改进工作串讲(下)【论文精读】_哔哩哔哩_bilibili

论文下载地址:https://arxiv.org/abs/2104.08860v2

视频领域 CLIP4clip:An Empirical Study of CLIP for End to End Video Clip Retrieval相关推荐

  1. CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval 论文解读

    CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval 论文链接https://arxiv.org/abs/ ...

  2. CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

    文章目录 前置知识 摘要 动机 Related work Visual Representation Learning from Text Supervision 网络结构 训练策略 参考文献 Pap ...

  3. 论文阅读笔记(五)CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

    Abstract 本文以CLIP模型为基础,通过迁移CLIP模型学到的知识,提出了CLIP4Clip(CLIP For video Clip retrieval)模型用于视频文本检索任务.主要研究以下 ...

  4. CLIP4Clip: An Empirical Study of CLIP for End to End Video ClipRetrieval--论文阅读

    文章地址:https://arxiv.org/pdf/2104.08860.pdf' code:https://github. com/ArrowLuo/CLIP4Clip 摘要:在本文中,作者提出了 ...

  5. TGRS2022/遥感:An Empirical Study of Remote Sensing Pretraining遥感预训练的实证研究

    TGRS2022/遥感:An Empirical Study of Remote Sensing Pretraining遥感预训练的实证研究 0.摘要 1.概述 2.相关工作 2.1.空中场景识别 2 ...

  6. 【How to Design Translation Prompts for ChatGPT: An Empirical Study 论文略读】

    How to Design Translation Prompts for ChatGPT: An Empirical Study 论文略读 INFORMATION Abstract 1 Introd ...

  7. 二值网络训练--A Empirical Study of Binary Neural Networks' Optimisation

    A Empirical Study of Binary Neural Networks' Optimisation ICLR2019 https://github.com/mi-lad/studyin ...

  8. 干货 | BBR及其在实时音视频领域的应用

    实时音视频系统要求低延时,流畅性好,而实际网络状态却是复杂多变的,丢包,延时和网络带宽都在时刻变化,这就对网络拥塞控制算法提出了很高的要求.本文来自网易云信资深工程师肖磊在LiveVideoStack ...

  9. 网易云信亮相LiveVideoStackCon 2019,分享BBR在实时音视频领域的应用

    8月23日,LiveVideoStackCon音视频技术大会在北京隆重举办.本届会议以"多媒体技术赋能新世界"为主题,聚焦音频.视频.图像.AI等技术的最新探索与应用实践.大会汇集 ...

最新文章

  1. 菱形开合的实现 IOS
  2. 2017 [六省联考] T5 分手是祝愿
  3. YOLO系列算法精讲:从yolov1至yolov4的进阶之路
  4. 本博客正式开通 Chat快问 功能
  5. Asp.net mvc 知多少(六)
  6. mac安装python虚拟环境_详解Mac配置虚拟环境Virtualenv,安装Python科学计算包
  7. 修改Typora的快捷键【markdown软件】
  8. h700通话糊 索尼wi_索尼随身听变种!火爆日本的异形智能 500元最强索尼降噪神器来了...
  9. Harmony OS — TimePicker时间选择器
  10. ASP中常用的服务器检测源代码
  11. java开发转测试开发经历
  12. 找商网获得找商网商品详情 API 返回值说明
  13. html游戏寻宝源码,WP7 Platformer寻宝游戏源码
  14. 财会法规与职业道德【1】
  15. 管道软件_软件管道工的就业市场过热
  16. dpdk pmd驱动初始化
  17. [论文阅读笔记44]Named Entity Recognition without Labelled Data:A Weak Supervision Approach
  18. 耗时整整3个月,我梳理了200道Android面试基础(上)【面试必考,全网最全,每天一遍】
  19. flashfxp支持sftp了
  20. Codeforces 456 A. Laptops

热门文章

  1. 【基础】这15种CSS居中的方式,你都用过哪几种?
  2. 哈理工OJ 1186 青蛙过河 (DP问题)
  3. webwork简单示例
  4. 3月8号女神节送什么礼物好?女神节礼物分享
  5. Intel C/C++、Fortran 编译器介绍
  6. linux查看串口波特率
  7. void main和int main的区别
  8. tell网关arp包正常吗_网工知识角|如何理解ARP协议?防护有诀窍,网络工程师必读...
  9. 软件测试学习(三)测试计划
  10. 中国电信推首款3G平板电脑;惠普成为全球头号服务器销售商(每日关注20100526)...