出品人:Towhee 技术团队

CLIP4Clip 以跨模态图文模型 CLIP 为基础,成功地实现了文字/视频检索任务。无论是由文字寻找相关内容视频,还是自动为视频匹配最合适的描述,CLIP4Clip 都能帮你做到。通过大量的消融实验,CLIP4Clip 证明了自己的有效性,并在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 等文本-视频数据集上实现了 SoTA 结果。

CLIP4Clip: Main Structure

CLIP4Clip 基于预训练好的图文模型,通过迁移学习或者微调完成视频检索的任务。它使用预训练的CLIP 模型作为主干网络,解决了从帧级输入的视频片段检索任务,并使用了无参数类型 、序列类型和紧密类型相似性计算器来获得最终结果。

相关资料

  • 模型用例: video-text-embedding/clip4clip

  • 论文: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

  • 更多资料: CLIP4Clip: CLIP 再下一城,利用CLIP实现视频检索

更多项目更新及详细内容请关注我们的项目( https://github.com/towhee-io/towhee/blob/main/towhee/models/README_CN.md) ,您的关注是我们用爱发电的强大动力,欢迎 star, fork, slack 三连 :)

zilliz用户交流

多模态模型 CLIP4Clip 带你实现文本与视频互搜相关推荐

  1. 文本生成视频Make-A-Video,根据一句话就能一键生成视频 Meta新AI模型

    Meta公司(原Facebook)在今年9月29日首次推出一款人工智能系统模型:Make-A-Video,可以从给定的文字提示生成短视频. Make-A-Video研究基于文本到图像生成技术的最新进展 ...

  2. 清华BAAI唐杰团队提出第一个开源的通用大规模预训练文本到视频生成模型CogVideo,含94亿超大参数量!代码即将开源!...

    关注公众号,发现CV技术之美 我爱计算机视觉 专业计算机视觉技术分享平台,"有价值有深度",分享开源技术与最新论文解读,传播视觉技术的业内最佳实践.知乎/微博:我爱计算机视觉,官网 ...

  3. 【论文阅读】多模态模型CoCa

    Introduction 在这项工作中,我们统一了单编码器.双编码器和编码器-解码器范式,并训练了一个包含三种方法优点的图像-文本基础模型.我们提出了对比Captioner模型(CoCa),该模型采用 ...

  4. 谷歌最新多模态模型CoCa,多项任务取得SOTA效果,ImageNet达到91.0%

    每天给你送来NLP技术干货! 来自:圆圆的算法笔记 作者:Fareise 最近谷歌提出了最新多模态预训练方法CoCa,在图像分类.图文检索.看图说话.VQA等多个任务都取得了SOTA效果.CoCa可以 ...

  5. 多模态模型前沿研究(1)

    1 ERNIE-ViL(百度,2021.3.,aaai) ERNIE-ViL是一个知识增强视觉-语言预训练模型,首次将场景图知识融入到多模态预训练中. 1.1 模型适用场景 ERNIE-ViL结合了从 ...

  6. 【NLP傻瓜式教程】手把手带你RCNN文本分类(附代码)

    继续之前的文本分类系列 [NLP傻瓜式教程]手把手带你CNN文本分类(附代码) [NLP傻瓜式教程]手把手带你RNN文本分类(附代码) [NLP傻瓜式教程]手把手带你fastText文本分类(附代码) ...

  7. 【NLP傻瓜式教程】手把手带你HAN文本分类(附代码)

    继续之前的文本分类系列 [NLP傻瓜式教程]手把手带你CNN文本分类(附代码) [NLP傻瓜式教程]手把手带你RNN文本分类(附代码) [NLP傻瓜式教程]手把手带你fastText文本分类(附代码) ...

  8. 【NLP傻瓜式教程】手把手带你fastText文本分类(附代码)

    写在前面 已经发布: [NLP傻瓜式教程]手把手带你CNN文本分类(附代码) [NLP傻瓜式教程]手把手带你RNN文本分类(附代码) 继续NLP傻瓜式教程系列,今天的教程是基于FAIR的Bag of ...

  9. 【NLP保姆级教程】手把手带你RNN文本分类(附代码)

    写在前面 这是NLP保姆级教程的第二篇----基于RNN的文本分类实现(Text RNN) 参考的的论文是来自2016年复旦大学IJCAI上的发表的关于循环神经网络在多任务文本分类上的应用:Recur ...

最新文章

  1. windows 2012 nps配置
  2. R语言使用ggpubr包的ggdotplot函数可视化水平棒棒糖图(自定义分组数据点色彩、自定义调色板、在两端添加点图的线段segments、整体排序从大到小、自定义数据点的大小、添加数值标签)
  3. python代码实现鸡尾酒排序(双向冒泡排序)
  4. 设置tomcat服务为80端口,tomcat虚拟主机,tomcat日志
  5. mysql中出现 xC4 xDD_mysql数据库调优总结(二)
  6. leetcode 小青蛙跳梯子
  7. MySQL优化之my.conf配置详解
  8. 线程间的通信方式1--共享变量(内存)
  9. 【OpenCV 例程200篇】25. 图像的平移
  10. swift 自定义TabBarItem
  11. 大数据分析要避免哪些错误
  12. jsp的知识略解,只作为笔记,不作为知识参考,谢谢
  13. vscode主题 webstorm_vscode/webstorm快捷键
  14. 黑客帝国“01”瀑布流C++
  15. java异常处理-小白学习中
  16. 常用的vue组件库总结
  17. 怎么免费提取PDF页面?
  18. uiautomator2+adb shell input tap 实现微博自动取消关注
  19. sql语句:简写拼音查询
  20. Springboot与手机的互动

热门文章

  1. Golang的一个简单实用的http客户端库httpc
  2. esp8266 nvs应用
  3. 各行业常见的资质证书
  4. php时间正序排序,列表的时间排序,应该正序还是倒序?
  5. Coursera | Python for Everybody专项课程
  6. 清华计算机系唐杰,清华大学—唐杰:图神经网络(GNN)及认知推理
  7. 导出excel中文文件名乱码问题
  8. Oracle导出导入dmp文件
  9. 更多数学趣题:求对数
  10. 2D前景触发与3D触发结合案例