©作者 | 张海涛

单位 | 重庆邮电大学

研究方向 | 视频理解

论文标题:

Alignment-guided Temporal Attention for Video Action Recognition

收录会议:

NeurIPS 2022

论文链接:

https://arxiv.org/abs/2210.00132

引言

1.1 问题与动机

无论是图片的前景还是背景都随着时间的迁移在帧上面发生变化,所以视频理解的任务需要对时间信息的建模。然而,以前的工作对时间建模提出了两种分支:时空分解的(2D+1D)操作和时空联合的 3D 操作(操作指 Attention or Convolution)。前者在计算效率上有优势但在识别效果上不足,后者在识别效果上有优势但在计算效率上不足。故而,建立不同帧的时间交互出现了效率和效用的窘境。

所以,本文作者从信息论的角度出发,提出了要对相邻帧最相似的部分进行 1D Temporal Operations,这样会使得两帧的互信息最大化从而提取到更多任务相关的特征。本文本质还是时空分解的(2D+1D)操作,不过是想办法增强了时间特征的提取,从而提高识别准确度。

原有的时间操作(Attention)是固定空间位置的。如粉色线条所示,相同位置的 patch 随着时间的迁移语义发生了变化,这样建立时间联系是没有意义的。我们希望像绿色线条那样,始终对相似的 patch 建立时间联系。所以,本文想对相邻帧的 patch 进行对齐(Alignment)。所谓对齐,就是把相似的 patch 放在同一个位置。

1.2 解决方案

本文实现的是 patch 层面的对齐,因为它采用的 Vision Transformer 作为主干网络。为了保证计算效率,还是采用了时空注意力分解的结构,不同的是在进行时间注意力计算之前先对相邻帧的 token 对齐,计算完之后为了避免空间结构的破坏又执行逆对齐操作还原空间顺序,如上图 c 所示。

方法

2.1 KMA

KMA (Kuhn-Munkres Algorithm) 是图论中的经典算法,旨在解决二部图的最优匹配问题(哪两个 Token 最相似)。KMA 中采用了匈牙利算法,它解决二部图的最大匹配(尽可能使得 T-1 时刻的 Token 和 T 时刻的 Token 两两配对且不重复)。这里,我们从匈牙利算法讲起。

2.1.1 匈牙利算法

二部图:设 G=(V,E) 是一个无向图,如果顶点 V 可分割为两个互不相交的子集 (U,V),并且图中的每条边(i,j)所关联的两个顶点 i 和 j 分别属于这两个不同的顶点集 (i in U, j in V),则称图 G 为一个二部图。简单的说,就是顶点被划分两个集合(U,V),边的左顶点一定属于 U 集合,右顶点一定属于 V 集合。在本文中,U 集合是 的所有 token,V 集合是 的所有 token,边表示 U 中 token 和 V 中 token 的余弦相似度。

匹配、完美匹配、最大匹配:设 G 是非空无环图,,M 中的任意两条边均不相邻则称 M 是图 G 的一个匹配。M 中边相关联的节点称为饱和点,否则称为非饱和点,如 G 的结点都是 M 的饱和点,则称 M 是完美匹配

最大匹配就是匹配中的边数达到最大。完美匹配一定是最大匹配,反之则不成立。简单来说,匹配就是不相邻边的集合(相邻边会使节点重复),而完美匹配就是包含了所有节点的且不相邻的边的集合。完美匹配的意义就是将 U,V 集合中的节点两两配对,且不重复使用节点。最大匹配就是找到了所有的匹配,但是节点可能没用完。

交错路径和增广路径:给定 G 的一个匹配 M,若路径 P 的边交替出现 M 中的边和非 M 中的边,则称 P 是交错路径。给定一个交错路径 P,它的起始点都是非饱和点则称 P 为增广路径

如下图,其中黑粗线表示匹配。{1,2,3}和{1,2,3,4,5}都是交错路径(一条含匹配边一条不含),但是{1,2,3}不是增广路径,因为{1,2,3}的起点(1 的左端点)是非饱和点(与匹配无关),而终点(3 的右端点)是饱和点(与匹配 4 相关)。而{1,2,3,4,5}是一条增广路径。

增广路径对匈牙利算法至关重要。从上图可以看出,{1,2,3,4,5}是一条增广路径,其中{2,4}是匹配。现在可以撤销 {2,4} 匹配,增加{1,3,5}匹配,显然{1,3,5}是不相邻的边符合匹配定义。所以,根据这条增广路径我们获得了更大的匹配。匈牙利算法目的是求解最大匹配,即图 G 不再存在 M 的增广路径。

匈牙利算法:

设 G 是具有二部划分 的二部图:

  1. 任给初始匹配

  2. 若 饱和 ,则是最大匹配,结束算法;否则,进入 3

  3. 在 点中寻找一个非饱和点 ,令 ,

  4. 若 停止,找到一个不饱和 的最大匹配;否则任选一点

  5. 若 是 的饱和点执行 6;否则,求从 到 的增广路径 ,执行 ,转 2

  6. 是 的饱和点一定存在边 ,执行 ,,转 4

例题:

2.1.2 Kuhn-Munkres 算法

可行顶标和平凡顶标:已知 是具有二部划分 的完全加权二部图,映射 满足对 的每条边 ,,其中 是边的权重,则 称是 的可行定标平凡顶标则是特殊的可行:

顶标,它的思想是 x 取最大边的权重,y 取 0,即:

可行定标的作用是生成 等子图

在等子图 上执行匈牙利算法,若得到完美匹配 M,则 M 是 G 的最优匹配。这是图论中的定理,在此不证明了。

若没得到完美匹配,匈牙利算法终止于 ,则令:

用 去调整可行顶标:

再用 生成新的等子图 ,再执行匈牙利算法求解最大匹配。

重复上述过程,直到最大匹配是完美匹配是,产生最优匹配。图论证明,由于最优匹配一定存在,所以 KM 算法一定会终止。

例题:

已知完全二部图 ,其中 ,,其邻接矩阵为:

2.1.3 回归论文

上面用比较大的篇幅介绍匈牙利算法和 KM 算法,因为它是本文提出的对齐概念实现的核心技术。现在我们看看文章的具体做法:

文章将上一帧的 tokens 看成集合 ,下一帧的 tokens 看成集合 ,它们之间的余弦相似度看成带权边,可作为邻接矩阵,这就是一个带权的完全二部图。用 KMA 可以求解其最优匹配,即找到前后帧最相似的 token一一匹配起来。One-hot Binary Mask A 描述了这种匹配关系,红色块是 1 表示匹配,白色块为 0。Align 与 De-Align 可定义为:

注意,逆对齐操作是 和对齐后的序列做矩阵乘法,从上图可以看出矩阵 A 是正交矩阵(任意两列计算内积为 0),则 。

2.2 理论证明

本文从信息论的角度证明了对齐后可增大相邻帧的互信息,从而使得帧在时间维度能够共享更多的任务有关信息,这样有利于提取出时间上有用的特征。

现将相邻两帧看成随机变量 和 ,它们之间的互信息可定义为:

再将互信息定义在 patch 层面:

由于给定图片 patch 出现的概率是确定的,则:

其中 表示对齐后的 patch。那么 可进一步简化为:

设对齐后的表示为 ,那么对齐后的互信息可定义为:

注意我们认为 ,因为对齐只改变了 patch 的顺序,但是没有改变 patch 里面含有的特征,所以信息熵应该是相同的。现在可以看到,对齐前的互信息 和对齐后的互信息 唯一的区别在于减号后面的条件熵不同,关键在于 和 的不同。由于对齐后 patch 高度相似,那么它们产生的条件概率也应该更大(已知该位置是苹果,下一帧该位置还是苹果的可能性更大一些),即:

由于信息熵是负对数,则:

最后推导得到,对齐后的互信息更大些:

总结:对齐后相邻帧相同位置的 patch 高度相似,由于用已知信息推相似信息概率自然会大一些,所以对齐后的条件熵会小一些,那么减去小的值,互信息自然会大一些。互信息刻画了两个随机变量的相似度,在这里相邻两帧的互信息更大意味着它们在时间维度有更多的共享信息。

实验

在此不赘述论文中的所有实验,只谈谈有启发性的实验。

ATA 的通用性和 de-aligment 的有效性:

首先可以看出,ATA 在 MLP,Convolution,ViT 架构中都有效果。其次在时间建模方面,ATA 要远超 Averaging,略好与 Attetion。由于 Attention 建立了帧与帧间的全局联系,那么它包含的互信息也是较大的(Attention 其实也是一种对齐方法),这说明了增大互信息确实能够更好地理解视频

另外可以观察到,在 MLP 和 Conv 架构中使用 de-alignment 的效果和不使用的效果差异明显,这是因为 MLP 和 Conv 依赖于局部的空间模式,需要空间结构的完整性。而在 ViT 架构中,不使用 de-alignment 的效果差异并不大,这是因为 Transformer 能建立全局的空间联系,对于空间结构的破坏具有一定的容忍度

互信息比较:

明显看到,没有任何时序建模时,互信息极低。简单,增加 Averaging 后互信息剧增,这说明时序建模的有效性可能就是因为增大了相邻帧的互信息。另外,ATA 的互信息略微高于 Attention,而且 ATA 是没有参数的,说明其优势。最重要的是验证了,Aligment 确实可以增加相邻帧的互信息,并且使得分类效果更好。

总结

本文的核心思想是将相邻帧的 Token 或 Patch 对齐,即将高度相似的 Patch/Token 放在相同位置上。

这种方法,从信息论的角度是增大了互信息,从直觉来说是让相邻帧在时间维度共享更多有用的语义信息。

我认为可改进之处在于 KMA,它的时间复杂度是 ,引入的计算量偏大了。

考虑是否用可学习的方式求解完全二部图的最优匹配并降低时间复杂度。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

NeurIPS 2022 | 基于对齐引导时间注意力机制的视频动作识别相关推荐

  1. Talk预告 | 腾讯AI Lab研究员童湛南京大学谈婧:基于注意力机制的视频自监督表示学习和时序动作检测

    本期为TechBeat人工智能社区第465期线上Talk! 北京时间12月22日(周四)20:00,腾讯AI Lab研究员--童湛&南京大学计算机科学与技术系硕士研究生--谈婧的Talk将准时 ...

  2. 基于卷积神经网络和注意力机制的人眼闭合检测算法

    基于卷积神经网络和注意力机制的人眼闭合检测算法 前言 卷积神经网络 注意力机制 数据集 源代码 致谢 结语 前言 卷积神经网络 近年来,基于神经网络的识别方法已经成为一个热门的研究专题,该方法可用于特 ...

  3. 多头自注意力机制脑电情绪识别:论文精读

    文章题目:EEG-Based Emotion Recognition Using Convolutional Recurrent Neural Network with Multi-Head Self ...

  4. Facebook AI牛津提出带“轨迹注意力”的Video Transformer,在视频动作识别任务中性能SOTA!...

    关注公众号,发现CV技术之美 ▊ 写在前面 在视频Transformer中,时间维度通常与两个空间维度(W和H)的处理方式相同.然而,在对象或摄影机可以移动的场景中,在第t帧中的一个位置处的物体可能与 ...

  5. 基于单幅深度图像的实时人体部位动作识别(摘要+概述)

    基于单幅深度图像的实时人体部位动作识别 Jamie Shotton      Andrew Fitzgibbon       Mat Cook       Toby Sharp      Mark F ...

  6. cvpr 注意力机制_视频人员重识别:关系引导空间注意力 + 时间特征提取模型

    作者 | Ass 编辑 | CV君 报道 | 我爱计算机视觉(微信id:aicvml) 2020 年顶会论文中,很多都会将关系加入到注意力机制的获取中. 除了该文,还有 2020 年 CVPR 的基于 ...

  7. 【小样本学习】ICLR2022:基于原型记忆力和注意力机制的少样本图像生成

    肯定很多人都看过了吧,也发了很多笔记,但是我还是想写一篇自己的. 这篇文章结合医学,眼前一亮. 原文链接:https://openreview.net/pdf?id=lY0-7bj0Vfz 知乎同步更 ...

  8. 【源头活水】IEEE TIFS 2022 | 基于不确定因素感知的鲁棒虹膜识别

    "问渠那得清如许,为有源头活水来",通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉.为此,我们特别精选论文阅读笔记,开辟 ...

  9. NLP-信息抽取-关系抽取-2016:Attention-BiLSTM实体关系分类器【基于双向LSTM及注意力机制的关系分类】【数据集:SemEval-2010 Task 8】

    <原始论文:Attention-based bidirectional long short-term memory networks for relation classification&g ...

最新文章

  1. Advanced Installer 打包程序并支持自动升级
  2. FPGA控制的数码显示电路
  3. malloc和new的区别是什么?
  4. dos命令关闭所有dos窗口
  5. Elasticearch 安装 基础介绍 (一)
  6. Gartner数据劲爆:阿里全球第三,华为中国第二!
  7. CSS、JavaScript和Ajax实现图片预加载的三大方法及优缺点分析
  8. jenkins中使用rsync, scp命令
  9. Uniswap 24h交易量约为10.6亿美元涨2.91%
  10. 陆奇知天命,拒绝巨头选 YC
  11. CSS 定位 (Positioning) 实例
  12. 机器学习建模商务合作
  13. plecs / plexim 学习随笔
  14. JavaScript 特效三大系列总结
  15. 使用VirtualBox创建Mac虚拟机
  16. 运维:你们 JAVA 服务怎么又又又又出问题了,内存降不下来
  17. STM32——TIM1的TIM1_CH1N通道PWM初始化
  18. 支付宝app登录授权的infoStr授权登录流程
  19. 小福利,带你快速入门sumifs多条件求和函数、设置下拉菜单结合vlookup函数双条件查找数据、excel的切片器(表关联)、数据透视表、数据透视图
  20. 长文本口语语义理解技术系列①:段落分割实践

热门文章

  1. 使用TensorFlow2.0搭建DCGAN生成动漫头像(内含生成过程GIF图)
  2. 传z播客 刘意_2015年Java基础视频笔记(day18~day20)(2016年3月20日14:33:31)
  3. seo文章标题伪原创工具
  4. mmse评估量表_简易智能精神状态检查量表(MMSE)
  5. 计算机专业的课程设置特点,计算机类专业“离散数学”课程设置的意义
  6. mysql emojo 其他方案_MySQL数据库存储昵称带有emoji处理方案
  7. php 压缩gif 不动,调整GIF动画文件的大小而不会破坏动画
  8. [数据库原理] 理清数据库范式(1NF、2NF、3NF、BCNF)
  9. 自监督论文阅读笔记SELF-SUPERVISED SPECTRAL MATCHING NETWORK FOR HYPERSPECTRAL TARGET DETECTION
  10. 十分流行自举法(Bootstrapping )为什么有效