Abstract

基于视频的人再识别(reid)旨在匹配行人在非重叠相机上的视频序列。如何将视频的时空信息嵌入到特征表示中,是一项很有挑战性的实际工作。现有的方法大多是通过汇聚图像特征设计神经网络的注意力机制来学习视频特征,而只在高层特征上研究帧之间的相关性。在这项工作中,我们的目标是细化具有非局部注意操作的中间特征和高级特征,并做出了两个贡献

  • (i)我们建议建立一个非本地视频注意力网络(NVAN),将视频特征纳入多个特征级别的表示。
  • (ii)我们进一步引入一个时空高效的非局部视频注意网络(STE-NVAN),通过探索行人视频中呈现的时空冗余来降低计算复杂度
    大量的实验表明,我们的NVAN在火星数据集的一级精度上比目前的水平高出3.8%,并证实了我们的STE-NVAN与现有方法相比,显示出了更优越的计算能力。

1. Introduction

人员重新识别(reid)解决了在非重叠相机中检索行人图像/视频的问题。以前的方法主要集中于基于图像的reid,其中每个行人拥有多个图像用于检索[4,9,11,18,22,24,34,42]。最近,基于视频的reid在文献中引起了极大的关注,因为提取行人视频在真实的监控应用中更加真实和关键[12,26,32,35]。随着大规模基于视频的reid数据集的出现[26,35],研究人员设计了深度神经网络来学习视频的鲁棒表示[1,8,17,23,26,45]。
为了执行基于视频的reid,典型的方法需要学习一个映射函数来将视频序列投射到一个低维特征空间,然后通过比较样本之间的距离来执行reid。大量的工作证明,训练卷积神经网络(convolutional Neural Network, CNN)作为一个映射函数已经超过了传统的手工特征训练方法[6,15,20]。通常,它们通过平均或最大池聚集图像特征来获得序列的特征[23,26]。然而, 方法 无法 处理 阻塞 或 空间 错位 的 视频 序列 , 因为 它 将 所有 的 图像 序列 中 平等 [1]. 重要性为了提取出与Re-ID相关的信息,一些研究将递归神经网络结合起来,采用端到端训练的方式来学习时空依赖关系[2,23,39]。最近,有几项研究提出了注意机制来衡量不同帧或不同空间位置的重要性,从而更好地聚集表现[1,8,17]。虽然这些方法成功地捕获了视频序列的空间和时间特征,但它们只探索了表示的高级特征的聚合,这对于细粒度的分类任务(如Re-ID)可能不够健壮[19,25,40]。

在本文中我们首先通过利用视频序列在低级别和高级别的空间和时间特性来改进视频序列的表示。受Wang等人[33]的启发,我们提出了一个非局部视频注意网络(Non-local Video Attention Network, NVAN),将非局部注意层引入到一个图像分类CNN模型中。非局部注意层根据不同帧和不同空间位置的特征生成注意掩码,**利用全局序列信息丰富局部图像特征。通过在不同的特征水平上插入非局部注意层,NVAN探索了序列的空间和时间多样性,并随后改变了其特征表示,而不是像之前的工作那样将单个图像特征与一组权重组合在一起。我们的NVAN模型在具有挑战性的MARS[26]数据集上大大超过了所有最先进的基于视频的reid方法,证明了利用全局信息获取多级特征对于学习视频序列的表示是至关重要的。将非局部注意层应用于多层特征显著提高了算法的性能,但在计算复杂度方面付出了很大的代价。实际上,它增加了99.3%的总浮点运算(FLOP),使之难以扩展到实际应用中。为了缓解这种挑战,我们利用行人视频中的时空冗余,提出了一种时空高效的非局部视频注意网络(STE-NVAN)。我们首先利用行人图像中的空间冗余来降低非局部注意层中注意掩码的粒度。另一方面,我们研究了视频帧之间的时间冗余,将图像信息聚合成具有代表性的具有层次结构的视频特征。通过减少空间和时间上的计算复杂性,我们的STE-NVAN与原始NVAN相比减少了72.7%**的FLOP,而在火星数据集上,rank-1的精确度只下降了1.1%。Our STE-NVAN 提出 了 更 卓越 的 性能 和 复杂度 之间 trade off 相比 现有 视频 Re-ID methods.

我们工作的贡献可以总结如下:

  • 我们将非局部注意操作引入到多特征层的主干CNN中,融合行人的时空特征

视频进表示。

  • 我们大大减少了非本地视频关注网的计算量,研究行人视频中呈现的空间和时间冗余。

  • 大量的实验证明,我们提出的模型不仅在识别精度上优于最先进的方法,而且与现有的基于视频的识别注意力方法相比,计算量更少。

2.Related work

在本节中,我们将简要回顾基于图像的人识别、基于视频的人识别以及针对人识别问题的注意机制的使用等相关工作。
多年来,基于图像的人的真实身份在识别(ReID)得到了广泛的研究。随着CNNs[11,19,27,37,44]的成功,从网络中学习到的深度特征代替了手工特征[4,9,20,42]来表现行人图像。郑等人认为这些网络可以分为判别学习和度量学习。判别学习利用交叉熵损失来学习身份分类的深层特征[27,37,44]。至于度量学习,Hermans等人的[11]使用三重损失来教网络把同一个人的特征推到一起,把不同人的特征区别开。在这项工作中,我们利用两个损失函数来训练我们的网络基于视频的人识别。
基于视频的Re-ID是基于图像的ReID的扩展。郑等人介绍了一个大规模的数据集,使基于视频的reid的深度特征学习成为可能。他们首先训练CNN提取图像特征,然后将其聚合成平均/最大池的序列特征。其他文献[23,39,45]采用递归神经网络,利用序列内的时间关系将图像特征归纳为单个特征。
近年来,人们提出了在深度特征中捕捉行人序列时空特征的注意机制。Xu等人引入联合关注的时空池网络,通过联合考虑查询和库对的亲缘矩阵来提取序列特征。Li等人通过学习注意权值,将不同空间位置和不同时间帧的特征组合成一个序列特征。Chen等人利用[29]中的技术对每个视频片段进行自我注意,并在视频片段之间进行共同注意,以学习序列特征。Fu等人通过挖掘识别区域的特征来学习序列特征,并使用无参数注意方案选择重要帧。虽然这些作品通过在基于图像的CNNs的高阶特征上引入空间和时间的注意来获得有希望的结果,但是它们忽略了在中等特征水平上利用视频特征的重要性。相比之下,我们提出的NVAN能够利用视频的时空信息对中间特征进行细化,而我们高效的STE-NVAN模型大大降低了在较低的特征层融合视频特征的计算成本。

3. Proposed Method

给定任意行人的图像序列,我们的目标是学习CNN提取其特征表示,使基于视频的人在嵌入空间中重新识别。学习序列代表性特征的关键是将视频特征融入到特征本身中。为此,我们在CNN中引入了非局部注意层来探索视频序列的时空依赖性。我们在3.1节中提出了一个非本地视频注意网络(NVAN)来在不同的功能级别上应用这种操作。然而,通过引入注意机制,我们观察到难以置信的巨大计算复杂性。因此,我们在3.2节中进一步提出了时空高效的非局部视频注意网络(STE-NVAN),利用行人视频中存在的时空冗余来降低计算成本。

3.1 Non-local Video Attention Network

图像序列中提取特征,我们将输入视频帧的一个子集选择限制随机抽样(RRS)策略和转发通过骨干CNN网络加入非本地关注层和一层功能池(FPL)获得视频表示向量Re-ID,如图1所示(b)。

  • Restricted Random Sampling (RRS)
    处理长期时间结构有几种方法。为了平衡速度和精度,我们采用了限制随机抽样策略[17,31]。给定一个输入视频V,我们把它分成T个时间相等的块{Ct} T =[1,T]。为了训练,我们在每个块中随机抽取一个图像。至于测试,我们使用每个块的第一个图像。然后视频由采样帧的有序集合{It}t=[1, t]表示。
  • Non-local Attention Layer
    嵌入视频特征的特性,介绍了王等提出的非本地层。[33]骨干CNN,如图1所示(一个)。给定一个输入特征张量X∈R W C H T×××获得T的序列特征图的大小W C H××,我们渴望之间信息交换功能在所有空间位置和帧。令xi∈RC从X中采样,对应的输出yi∈R
    Non-local Attention layer可表示为:

    这里,i, j = [1,T HW]索引了一个feature map和所有帧的所有位置。我们首先利用线性变换函数将x映射到一个低维嵌入空间R。条款θ,φ,g(1×1×1卷积)。然后,利用嵌入的高斯实例化计算所有位置x j的加权平均值来计算每个位置xi的响应。方程1在非局域层中是一个自我注意机制,在[33]中也提到了。The 整体 非 本地 层 最终 制定 Z = WzY +X, non-local 操作 添加 到 输出 的 原始 特征 张 量 与 转换 Wz X (1×1×1 convolution) Y 映射 到 原始 特征 空间 R C. The 非 本地 操作 背后 的 直觉 是 , 当 提取 特性 在 一 个 特定 的 位置 在 一 个 特定 的 time, network 应 考虑 空间 和 时间 依赖性 在 一 个 序列 在 非 本地 context. 通过 参加在我们的person Re-ID方案中,我们将5个非本地层嵌入到我们的主干CNN(一个ResNet-50网络[10])中,以理解视频中呈现的语义关系,如图1 (b)所示经过图像序列通过CNN和非本地骨干层的关注,我们采用功能池层为Re-ID获得最终的功能,如图1所示(b)。我们应用3 d平均池(3 dap)沿着时空维度聚合每个图像的输出特性为代表向量,紧随其后的是一批标准化(BN)层[13]。我们通过联合优化交叉熵损失和软边批处理硬三重态损失[11]来训练网络。有趣的是,我们根据经验发现,在BN之前优化特征的三重损失时,优化最终特征的交叉熵损失可以获得最佳的识别性能。A 理性 的 解释 是 , 嵌入 空间 没有 正常化 是 更 适合 的 距离 度量 学习 等 三 联体 loss, 而 规范化 的 特征 空间 力量 模型 分类 样本 与 crossentropy 损失 更多 的 约束 角 空间 [5, 11 日 , 21 日 , 30 )
  • Feature Pooling Layer (FPL).

3.2 Spatially and Temporally Efficient Non-local Video Attention

Network

5.Conclusion

提出了一种新的非局部视频注意网络(NVAN),该网络融合了多个非局部注意层,从低到高提取视频的时空特征,丰富了视频在人再识别中的表现。为了降低计算成本,我们提出了一种时空高效的非局部视频注意网络(STE-NVAN),它利用行人的局部特征,在时空上减少非局部操作,在时间上减少分层结构的操作。大量的实验证明,我们的STE-NVAN是性能和计算之间的一种较好的折衷。

《Spatially and Temporally Efficient Non-local Attention Netw......》翻译文献--学习网络相关推荐

  1. Spatially and Temporally Efficient Non-local Attention Net work for Video-based Re-Id 论文笔记

    作者的目标非常明确(刷分),利用注意力机制,首次将Mars数据集的rank-1突破90难关. Abstract 在神经网络中利用注意力机制来学习图像特征是近几年来比较流行的方法,同样地,也适用于视频序 ...

  2. Transformer不比CNN强!Local Attention和动态Depth-wise卷积的前世今生

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨Qi Han@知乎(已授权) 来源丨https://zhuan ...

  3. ICLR 2022 | Transformer不比CNN强!Local Attention和动态Depth-wise卷积

    ©作者 | Qer 单位 | 南开大学 研究方向 | 计算机视觉 Transformer 的文章近两年来可谓是井喷式爆发,大量工作来设计各种任务上的 transformer 模型,然而,attenti ...

  4. GLAMD: Global and Local Attention Mask Distillation for Object Detectors

    全局-局部 注意力的mask蒸馏 传统KD关注fore,而忽视的backg,关注全局,忽略local.本文GLAMD,提取了全局+局部,将future map 分为 几个 patch,并对global ...

  5. BOAT: Bilateral Local Attention Vision Transformer

    BOAT Attention 论文标题:BOAT: Bilateral Local Attention Vision Transformer 论文地址:http://arxiv.org/pdf/220 ...

  6. 各类注意力机制的介绍 (Intra Inter Soft Hard Global Local Attention)

    前言 注意力机制最早出现于论文<Neural Machine Translation by Jointly Learning to Align and Translate> 中. 传统神经 ...

  7. BEBLID Boosted Efficient Binary Local Image Descriptor 论文学习

    Abstract 对局部图像特征做高效率匹配是许多计算机应用的基础任务.但是对于算力有限的设备(如手机或无人机)来说,顶尖的匹配算法会大打折扣.本文介绍了 BEBLID,一个高效的二元图像描述子.它改 ...

  8. CVPR2018: Generative Image Inpainting with Contextual Attention 论文翻译、解读

    2019独角兽企业重金招聘Python工程师标准>>> CVPR2018: Generative Image Inpainting with Contextual Attention ...

  9. AIGC之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

    AIGC之LLaMA:<LLaMA: Open and Efficient Foundation Language Models>翻译与解读 导读:该论文提出了一个开源的大规模语言模型LL ...

最新文章

  1. Linux系统软件信息内核,系统,目录,防火墙等
  2. 如何看待水氢发动机事件
  3. mysql倍增表的内容,mysql - DATEDIFF不会在触发器内倍增 - SO中文参考 - www.soinside.com...
  4. Java中key可以重复的Map集合:IdentityHashMap
  5. 全球领先的数据库!我用它直接让公司项目的性能提升了一半~
  6. linux 省内存的桌面,Linux_在Linux中可视化显示内存占用情况的方法,物理内存不足对Linux桌面系统 - phpStudy...
  7. poj 3411 Paid Roads (dfs)
  8. 基于FormsAuthentication的用户、角色身份认证
  9. 数据情报分析EXCEL篇
  10. vs2010旗舰版密钥
  11. 5. DICOM图像层级分类-DCMTK-压缩图像PixelData读取
  12. mysql存储过程输出_MySQL存储过程
  13. 【Swift】文档分享到其他应用
  14. 2023春季露营投影怎么选?轻薄投影极米Z6X Pro值得推荐
  15. 程序人生-hello`s P2P
  16. java操纵excel文件2
  17. window10 卸载输入法
  18. 电脑都面的没电了,我是如何通过腾讯云恐怖的一面面试的?
  19. canvas根据坐标点绘制图形
  20. git fetch学习之旅

热门文章

  1. 计算机软件项目管理第1-8章课后题
  2. SAP中输出采购订单和内部订单对应关系清单
  3. Java Web 网络商城案例演示五(用户激活)
  4. 策略和计费控制(PCC)系统研究
  5. Simulink —— 加速模式(Accelerator mode)的使用
  6. 如何使用“时间机器”备份Mac电脑
  7. 被动信息收集-DNS篇
  8. Fn除以10007的余数是多少
  9. ASTM E595 Outgassing是否有对应的中国标准
  10. js调用串口通信,读取指纹仪数据