简介

使用多模态transformer融合了来自视频的 多种模态(视觉、声音、语音)特征、专家序号、时间编码,得到各个模态的video表征,再计算由BERT、Gated embedding modules输出的Caption words的表征,最后计算caption和video表征的相似度

论文的任务/贡献

1.提出用于检索的视频编码器体系结构:多模态transformer处理在不同时间提取的多模态特征
2.研究了不同的语言embedding体系结构,BERT最好。
3.效果好。

所提方法

通过学习一个函数计算文本和视频的相似度,根据相似性对数据集中所有视频进行排序

网络结构



MMT:多模态Transformer
Ω:结合了语义特征F,专家信息E,时间线索T的向量,最终输入到MMT

视频表征

特征F:利用专家之间的跨模态和长时期时间关系学习一种联合表示。使用了N个预训练过的专家{Fn}n=1N\{F^n\}^N_{n=1}{Fn}n=1N。每个专家是一个为特定任务而训练的模型,随后用来从视频中提取特征。每个专家为一个视频v提取出来K个特征的序列Fn(v)=[F1n,...,FKn]F^n(v)=[F^n_1,...,F^n_K]Fn(v)=[F1n,...,FKn]。专家提取的特征编码了视频的语义,随后为每个专家使用一个线性层将特征映射到同一维度dmodeld_{model}dmodel
由于每个transformer为每个输入产生一个embedding,则每个专家有多个embedding,为了让每个专家仅有一个embedding,定义了一个特征集合,将专家的信息收集并置于上下文中。将单个专家预测的所有特征使用最大池化进行聚合Faggn=maxpool({Fkn}k=1K)F^n_{agg}=maxpool(\{F^n_k\}^K_{k=1})Faggn=maxpool({Fkn}k=1K)。输入视频编码器的特征格式为F(v)=[Fagg1,F11,...,FK1,...,FaggN,F1N,...,FKN]F(v)=[F^1_{agg},F^1_1,...,F^1_K,...,F^N_{agg},F^N_1,...,F^N_K]F(v)=[Fagg1,F11,...,FK1,...,FaggN,F1N,...,FKN](F是用什么得到的论文里没提)
专家embedding E:为了使MMT能够确定该关注哪个专家,学习了N个embedding。送入视频编码器的专家embedding序列的格式E(v)=[E1,E1,...,E1,...,EN,EN,...EN]E(v)=[E^1,E^1,...,E^1,...,E^N,E^N,...E^N]E(v)=[E1,E1,...,E1,...,EN,EN,...EN]
时间embedding T:提供了视频中特征被提取到MMT的时间信息。视频持续时间最长为D=tmax秒,且向上取整,学习了D个embedding{T1,...,TD}\{T_1,...,T_D\}{T1,...,TD},每个TxT_xTx都含有1秒的时间信息(t=7.4时,D=8)。还额外学习了两个时间embedding,其编码了聚合后的特征Tagg和未知的时间信息特征Tunk(对于时间信息未知的专家),组成T(v)=[Tagg,T1,...,TD,...,Tagg,T1,...,TD]T(v)=[T_{agg},T_1,...,T_D,...,T_{agg},T_1,...,T_D]T(v)=[Tagg,T1,...,TD,...,Tagg,T1,...,TD](Tagg Tunk是学来的?T怎样与F和E对齐?)
最终,Ω(v)=F(v)+E(v)+T(v)=[ωagg1,ω11,...,ωK1,...,ωagg1,ω1N,...,ωKN]\Omega(v)=F(v)+E(v)+T(v)=[\omega^1_{agg},\omega^1_1,...,\omega^1_K,...,\omega^1_{agg},\omega^N_1,...,\omega^N_K]Ω(v)=F(v)+E(v)+T(v)=[ωagg1,ω11,...,ωK1,...,ωagg1,ω1N,...,ωKN],经过MMT后输出Ψagg(v)=MMT(Ω(v))=[ψagg1,...,ψaggN]\Psi_{agg}(v)=MMT(\Omega(v))=[\psi^1_{agg},...,\psi^N_{agg}]Ψagg(v)=MMT(Ω(v))=[ψagg1,...,ψaggN]

字幕表征

先使用训练过的BERT,将输出[CLS]作为caption的embedding h©,然后使用函数g投影到N个不同空间即Φ=g◦hΦ=g◦hΦ=gh。为了使字幕表征的大小与视频匹配,为函数g学习了与视频专家一样多的门控embedding模块。字幕表征由N个embedding组成,表示为Φ(c)={ϕi}i=1NΦ(c)=\{\phi^i\}^N_{i=1}Φ(c)={ϕi}i=1N
相似性估计
将每个专家i的视频-字幕相似性⟨ϕi,ψaggi⟩\lang\phi^i,\psi^i_{agg}\rangϕi,ψaggi的加权(由于字幕可能不能统一描述视频中内在模态,有些关注于视觉模态,有些关注于声音模态)之和s(v,c)=∑i=1Nwi(c)⟨ϕi,ψaggi⟩\displaystyle s(v,c)=\sum^N_{i=1}w_i(c)\lang\phi^i,\psi^i_{agg}\rangs(v,c)=i=1Nwi(c)ϕi,ψaggi作为视频-字幕相似性,记为s。wi(c)w_i(c)wi(c)代表第i个专家的权重,权重是将字幕表征通过一个线性层后使用softmax

Multi-modal Transformer for Video Retrieval相关推荐

  1. Video Retrieval文献汇总

    ****汇总与Video Retrieval 各大顶会的文章以及相关论文查找的链接 欢迎Star我的仓库:https://github.com/liuxiaoleicode001/Awesome-Te ...

  2. CAMoE——屠榜 video retrieval challenge

    关注公众号,发现CV技术之美 作者:炎思提 原文:https://zhuanlan.zhihu.com/p/425226244 本文转自知乎,已获作者授权,请勿二次转载. ✎ 编 者 言  来自今年九 ...

  3. 【论文阅读】mmSampler: Efficient Frame Sampler for Multimodal Video Retrieval【MLSys 2022】

    文章目录 前置知识 摘要(Abstract) 引言(Introduction) Paper: MLSys 2022 Author: Samsung AI Centre, Toronto, Canada ...

  4. Central Similarity Quantization for Efficient Image and Video Retrieval

    哈希图像检索文章学习笔记 Central Similarity Quantization for Efficient Image and Video Retrieval 摘要:现在哈希算法通常只是从成 ...

  5. 论文阅读 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插帧的文章,q,kv,来自不同的图像 代码:[here] Cross-Attention Transformer for Video I ...

  6. 论文笔记:A CLIP-Hitchhiker’s Guide to Long Video Retrieval

    一个 CLIP-Hitchhiker 的长视频检索指南 摘要 1 介绍 2 相关工作 3 Temporal Aggregation of Image-Text Representations(图像-文 ...

  7. Dual Encoding for Video Retrieval by T ext

    这里写目录标题 视频编码: 文本编码: 本文 3.2 Text-side多级编码 混合空间学习 潜在空间 概念空间学习 两个空间的联合学习 视频文本相似度: 评估 与最新技术的比较 在MSR-VTT的 ...

  8. Gated Mechanism for Attention Based Multi Modal Sentiment Analysis 阅读笔记

    GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS 阅读笔记 最近在跟进多模态的情感分析发现多模态榜一又被刷下来了,这篇 ...

  9. 计算机视觉(CV)领域Transformer最新论文及资源整理分享

    Transformer由论文<Attention is All You Need>提出,现在是谷歌云TPU推荐的参考模型.Transformer模型最早是用于机器翻译任务,当时达到了SOT ...

最新文章

  1. Apache服务器的WSASocket failed to open the inherited socket错误
  2. jupyter notebook报错:ImportError: cannot import name ‘Imputer‘ from ‘sklearn.preprocessing‘解决方法
  3. MATLAB从入门到精通-Simulink模块连续模块之积分(Continuous-Integrator)
  4. 抓个Firefox的小辫子,围观群众有:Chrome、Edge、IE8-11
  5. 获取radio和select的值,获取select的值
  6. 揭秘!一个高准确率的Flutter埋点框架如何设计
  7. Flink AggOperatorWholeWin 全窗口聚合函数
  8. Windows10 右键“打开文件所在位置”找不到应用程序
  9. OAuth: How and Why?
  10. css鼠标移上去向上移动,css3鼠标移动图片上移效果
  11. 微软鼠标测试软件,微软sculpt鼠标评测 | 微软sculpt人体工学无线鼠标评测_什么值得买...
  12. JavaScript使用计时事件制作的电子时钟
  13. 「微服务」修改服务注册到nacos默认的命名空间和分组名称
  14. 自己装修总结/商转公
  15. 上周热点回顾(4.9-4.15)
  16. Segmentation-Based Deep-Learning Approach for Surface-Defect Detection-论文阅读笔记
  17. java毕业设计大学生能力建设项目管理系统Mybatis+系统+数据库+调试部署
  18. “黑马程序员”视频学习笔记之面向对象基础及调试问题
  19. EXCEL查找字符串里是不是存在某个字符,并对存在的字符进行操作 if find
  20. 打造XP系统万能克隆-Ghost全攻略

热门文章

  1. matlab 实现水印添加
  2. 基于灰色模型的端口短信预测和垃圾短信治理研究
  3. 卸载亚信的安全杀毒软件
  4. 中科大计算机网络空间安全,2020年中国科学技术大学网络空间安全考研经验分享...
  5. C++实现Socket连接通信
  6. JDK、JRE、eclipse安装教程
  7. jdk,jre的下载安装教程
  8. 对比度亮度图像增强及convertTo详解
  9. 2021-2027全球与中国射频屏蔽窗市场现状及未来发展趋势
  10. 离散数学考前复习:(三)计数