关注公众号,发现CV技术之美

 写在前面

视频-文本检索是视觉语言理解中一项重要但具有挑战性的任务,它旨在学习一个相关的视频和文本实例相互接近的联合嵌入空间。目前的大多数工作都只是基于视频级和文本级的嵌入来衡量视频-文本的相似性。然而,忽略更细粒度或局部信息会导致表示不足的问题。有些工作通过分解句子来利用局部细节,但忽略了相应视频的分解,导致了视频-文本表示的不对称性。

为了解决上述限制,作者提出了一个层次对齐网络(HANet)来对齐不同层次的视频文本匹配表示。具体来说,作者首先将视频和文本分解为三个语义层次,即事件(视频和文本)、动作(运动和动词)和实体(外观和名词)。

在此基础上,作者自然地以个体-局部-全局 的方式构建层次表示,其中个体层面 关注帧和单词之间的对齐,局部层面 关注视频片段和文本上下文之间的对齐,全局层面 关注整个视频和文本之间的对齐。

不同级别的对齐捕获视频和文本之间从细到粗的相关性,并利用三个语义级别之间的互补信息。此外,通过明确学习关键语义概念,本文提出的HANet也具有丰富的可解释性。在两个公共数据集,即MSR-VTT和VATEX,上的大量实验表明,所提出的HANet优于其他SOTA的方法,这证明了分层表示和对齐的有效性。

 1. 论文和代码地址

HANet: Hierarchical Alignment Networks for Video-Text Retrieval

论文地址:https://arxiv.org/abs/2107.12059

代码地址:https://github.com/Roc-Ng/HANet

 2. Motivation

由于在线视频的爆炸性增长和人工智能技术的进步,跨模态检索吸引了越来越多的关注。除了语音识别,视频文本检索是上述场景中的一项关键技术,其目的是搜索给定自然语言句子作为查询的相关视频。这项任务具有挑战性,因为视频和文本是两种不同的模态,如何在共享空间中编码和匹配它们是关键。

目前,通常的做法是将视频和文本编码成紧凑的表示,并使用度量学习在联合潜在公共空间中度量它们的相似性。然而,这种紧凑的全局表示忽略了视频和文本中存在的更细粒度或局部信息,这可能导致表示不足的问题。

为了缓解这个问题,一些工作利用局部语义信息进行细粒度视频文本检索。而视频文本检索是一项跨模态的任务,这些方法只关注文本分析,而忽略了视频分析,导致了视频文本表示的不对称性。因此,同时解析文本和视频是一种更通用的解决方案。

为了解决上述问题,作者提出了分层对齐网络(HANet),旨在同时解析文本和视频到不同的语义级别,然后生成单个、局部和全局级别的表示,最后在单独的共享空间中分层对齐不同级别的表示(如上图所示)。

 3. 方法

在本文中,作者提出了用于视频文本检索的层次对齐网络(HANet),其目标是对齐不同层次的视频-文本特征,并度量不同公共空间中的相似性。HANet的结构如上图所示,它由四个部分组成:

1)视频文本解析(Video-text parsing) ,即分别使用特定于视频的和特定于文本的解析方式解析视频和文本。

2)视频表示(Video representations) ,即在视频解析的基础上构建帧、片段和视频级别的特征。

3)文本表示(Text representations) ,即在文本解析的基础上构建单词、短语和句子层次。

4)层次对齐(Hierarchical alignment) ,即对齐视频和文本表示的不同语义级别来计算它们的相似性。

最后,作者在第3.5节中介绍了模型的训练和推理

3.1 Video-Text Parsing

给定一个长度为

ACM MM2021 HANet:从局部到整体的检索!阿里提出用于视频文本检索的分层对齐网络HANet!代码已开源!...相关推荐

  1. McGill微软将卷积操作加入到ViT中,捕获更详细的局部信息!准确率达87.7%!代码已开源!...

    关注公众号,发现CV技术之美 本文分享论文CvT : Introducing Convolutions to Vision Transformers,由McGill&微软联合提出<CvT ...

  2. ACM MM2021 | 腾讯优图实验室9篇论文入选,含弱监督图像描述及定位、表格结构识别等研究方向...

    关注公众号,发现CV技术之美 本文转载自腾讯优图 第29届ACM国际多媒体会议(简称ACM MM)于10月20日至24日在成都举行.ACM MM是世界多媒体领域最重要的顶级会议,也是中国计算机学会推荐 ...

  3. 框架设计的局部与整体

    框架设计的局部与整体 second60  20180417 1. 例子引出 在框架设计中,很多总和分的问题需要处理,即局部与整体的问题.所以要有很好的扩展性.是框架设计中的重点之一. 举个例子 1.1 ...

  4. 数据可视化第二版-03部分-07章-局部与整体

    文章目录 数据可视化第二版-03部分-07章-局部与整体 总结 可视化视角-局部与整体 代码实现 韦恩图 venn3 venn2 饼图 环形图 旭日图 园堆积图 矩形树图 漏斗图 基于matplot' ...

  5. CLIP还能做视频字幕任务!腾讯清华提出CLIP4Caption,ACM MM2021挑战赛第二名!

    关注公众号,发现CV技术之美 ▊ 写在前面 视频字幕(Video captioning)是一项具有挑战性的任务,因为它需要生成描述各种不同复杂视频的句子.现有的视频字幕模型由于忽略了视频和文本之间的差 ...

  6. 【北大微软】用于视频目标检测的记忆增强的全局-局部聚合

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 北大&MSRA,入选 CVPR 2020,ImageNet VID SOT ...

  7. CVPR2021-《T2VLAD》-浙大百度悉尼科技提出用局部全局对齐来进行视频文本检索!效果优于MMT!...

    关注公众号,发现CV技术之美 ▊ 写在前面 文本视频检索是一项具有挑战性的任务,其目的是基于自然语言描述搜索相关的视频内容.这个问题的关键是在联合嵌入空间中测量文本视频的相似性.然而,大多数现有的方法 ...

  8. ACM MM2021 | 快手获得Grand Challenge第一名

    近日,多媒体领域国际顶级会议ACM Multimedia 2021在中国成都举办.在会议的Grand Challenge环节,快手音视频网络传输算法团队(Kwai2021)获得了ACM MM Gran ...

  9. Neighbor-Vote:使用邻近距离投票优化单目3D目标检测(ACM MM2021)

    名字:Neighbor-Vote: Improving Monocular 3D Object Detection through Neighbor Distance Voting 链接:https: ...

最新文章

  1. Can't connect to HTTPS URL because the SSL module is not available
  2. oracleI基础入门(1)--背景
  3. leetcode 106. Construct Binary Tree from Inorder and Postorder Traversal | 106. 从中序后序遍历序列构造二叉树(Java)
  4. ABAP Business switc和business function简介
  5. 新闻发布项目——访问温馨提示
  6. mysql 传统数据恢复_mysql 数据恢复实例
  7. word总积分怎么算计算机,Word文档怎么计算积分
  8. Vue-vue-router.js路由--进级
  9. html字体置顶,2020年应使用的3种CSS字体属性
  10. nginx反代+varnish缓存+后端LAMP平台集群实现
  11. Android集成华为Push及注意事项
  12. vue-d2admin前端axio异步请求详情
  13. 爬虫项目报错Traceback (most recent call last): File D:/studay/python/one/day01/07_post请求.py, line 38,
  14. iphone个系列尺寸_iphone12哪个尺寸好 iphone12系列尺寸参数对比
  15. java duplicate key_Stream 操作 Duplicate key问题
  16. 流媒体学习之路——Google的新拥塞算法SQP详解(编写中)
  17. 冷色系清新调、日系清新调 、电影色调复古风、欧美风复古,用曲线就可以调了!!!...
  18. 光通信的再思考:5G流量爆发下的数据密度革命
  19. 6-1 插入法建立有序链表
  20. 什么是自适应布局?什么是响应式布局?他们的区别是什么?

热门文章

  1. 【链接攻击,差分攻击,去标识化代码实现】差分隐私代码实现系列(二)
  2. 鱼眼图像畸变校正--透视变换
  3. php mvc 参数传递数组,PHP MVC在帖子上添加到数组
  4. Linux学习笔记4
  5. extern 结构体_选三物质结构高中化学知识模块音频
  6. linux proc进程,linux 下 /proc/进程号/ 重要进程文件的内容解析
  7. php 表单条件设置_PHP基础知识总结
  8. linux 网口名称变了_CentOS7修改网卡名称为eth0及一些基本设置
  9. linux查找指定修改时间的文件夹,linux 查找某个日期以后修改过哪些文件 shell脚本...
  10. java11 scala_JDK1.10+scala环境的搭建之windows环境