【深度学习】步态识别-论文笔记:(ICCV-2021)用于步态识别的3D局部卷积神经网络
这里写目录标题
- 论文详情
- 概述
- 达摩院视频讲解笔记
- 挑战
- 提出3D local CNN
- 3D local block
- 数据集
- 论文
- 摘要
- 1 介绍
- 2 主要贡献
- 3 方法
- 3.1 Formulation
- 3.2. Instantiation
- 3.2.1 Localization
- 3.2.2 Sampling
- 3.2.3 Feature Extraction
- 3.2.4 Feature Fusion
- 3.3 3D Local CNN for Gait Recognition
- 4.Experiments
论文详情
(ICCV-2021)用于步态识别的3D局部卷积神经网络(3D Local Convolutional Neural Networks for Gait Recognition)
paper是中国科学技术大学发表在ICCV 2021的工作
论文地址:地址
视频讲解:阿里达摩院
学习笔记1
概述
步态识别的核心是捕捉人体行走时随时间变化的独有的、有区分性的特征。
**现有方法缺点:**提取特征时采用固定划分局部的手段,忽略了人体部位的位置、大小和运动模式都是随时间动态变化的。
改进:提出一种全新的视频序列分析基础模型building block,作为3D CNN backbone中即插即用的模块,动态定位不同的三维局部区域,每个区域的时空位置和尺度各不相同,在步态识别任务上取得最好结果。
达摩院视频讲解笔记
挑战
最近的四个针对步态做法:通过多个尺度或者多层特征融合,提取人的不同部位运动特征。基本做法,通过pooling,或者划分固定大小的条的手段,粗略的对应人的手,头,脚特征,但人部位的位置,大小,运动的变化的,因此将feature map划分成条是不精确的,无法解决局部识别的问题。
例如:头。和手摆动的频率不一样。因此时间paten问题:提取头部的时候,可能提取前边的多少帧,提取手部很大时候又是一些帧;空间上,手,头是个动态变化的过程,所以local就会有很大变化,所以需要动态的定位到各个不同的局部,且要完整的提取运动周期的话,时间的长短scale,位置的长短不同,
现有工作没有很深入结合人体步态识别特征需求的网络结构。
提出3D local CNN
意义:动态的定位
3D local block
动态体现:
1位置localization
cx.cy.ct代表在那个帧的哪个位置采样,代表位置;
segema:高斯窗的平滑程度;diut:步长;gama:置信度,
对应人眼,就是到底关注哪些特征的区域,时间空间的定位
2采样sampling
人眼聚焦的机理:
空间上人眼focus机制,代表了一堆高斯函数的采样,以输入的点为高斯的加权
时间上,线性插值,保留运动的变化特征
图中每个框长短不一样,空间上的大小不一样,所以采样出来的可能是对应的手脚一些局部的特征
3feature extraction
4feature fusion
1x1x1:特征融合,降维
全局上用的和原来一样的卷积操作,实现全局特征和局部特征的融合,线性融合
6个的局部操作:头,左右手,躯干,左右脚
3个block
数据集
论文
摘要
步态识别的目标是从人体的时间变化特征中学习关于人体形状的独特时空模式。
由于不同的身体部位在行走过程中表现不同,因此可以直观地分别对每个部位的时空模式进行建模。
现有问题:
现有的基于部位的方法将每一帧的特征图平均划分为固定的水平条带以获得局部部位。显然,这些基于条带划分的方法无法准确定位身体部位。
第一,不同的身体部位可能出现在同一条条带上(例如手臂和躯干),而一个部位可能出现在不同帧的不同条纹上(例如手)。
第二,不同的身体部位拥有不同的尺度,甚至同一部位在不同的帧中也会有不同的位置和尺度。
第三,不同的部位还表现出不同的运动模式(例如,运动从哪一帧开始,位置变化频率,持续多长时间)。
提出:为了克服这些问题,本文提出了一种新的3D局部操作,作为3D步态识别主干中的通用构建模块系列。这个3D局部操作支持在序列中提取具有自适应空间和时间尺度、位置和长度的身体部位的局部3D体积(volume)。
这样一来,身体部位的时空模式就能很好地从3D局部邻域的特定部位尺度、位置、频率和长度中学习到。实验表明,本文的3D局部卷积神经网络在流行步态数据集上实现了最先进的性能。
1 介绍
全局特征缺点:不考虑身体形状的空间结构和局部细节,因此在面对视角变化时没有足够的判别力。一个自然的选择是学习详细的基于身体部位的局部特征,作为对全局特征的补充,或者学习它们两者的特征嵌入。
局部特征:由于人体由定义明确的部位组成,即头部、手臂、腿部和躯干,基于部位的模型有可能解决步态识别中的变化。
以前方法:
以前的基于部位的模型通过将特征图等分成固定的水平条来提取局部特征。
以前方法问题:
这些基于部位的步态识别方法忽略了两个问题。
首先,人体的不同部位有不同的尺度,甚至同一个部位在不同的帧中也可能有不同的位置和尺度。
其次,不同的部位表现出不同的运动模式,例如运动从哪一帧开始、位置变化的频率以及持续多长时间。
因此,在一个步态周期,视觉外观和时间运动变化是相互依赖的,人体不同的部位的特征也各不相同。
这表明步态识别模型应该支持对每个特定人体部位的自适应 3D 局部体积的提取和处理。
改进:
为了克服步态识别中的上述问题,本文提出了一种新的3D局部操作,作为3D步态识别主干中的通用构建模块系列。这个3D局部操作**支持在序列中提取具有自适应空间和时间尺度、位置和长度的身体部位的局部3D体积(volume)。**这样,不同身体部位的3D局部邻域在特定的部位尺度、位置和运动位置、频率、长度上进行处理,如图1所示。2D 局部操作已经被证明在图像识别中是有效的,其中利用可微分的 2D 注意力机制来产生位置和尺度平滑变化的 2D 图像/特征块。然而,由于时间注视(temporal foveation)的不同机制,将这个想法应用于 3D 局部操作是非常具有挑战性的。
原因有两方面:
1)像素的空间采样遵循人眼的焦点,而帧的时间采样则是遵循光流的分布。
2) 空间采样处理2D切片,时间采样处理1D序列,时空采样处理3D视频体积。因此,需要一种新的2D和1D联合采样策略。
图1.主干CNN中的块。所有这些块都从局部邻域提取特征。在C2D和C3D中,局部邻域是固定的2D切片(k × k k \times kk×k)或3D体积(k × k × k k \times k\times kk×k×k)。非局部网络学习所有位置(H × W × T H\times W \times TH×W×T)的自适应长距离依赖。本文的3D局部CNN旨在为多个局部路径定位自适应3D体积,而不是固定的局部邻域,并提取相应的局部特征
局部操作包括4个模块:定位、采样、特征提取和融合。
定位模块用于学习头部、躯干、左臂、右臂、左腿和右腿六个身体部位的自适应时空尺度、位置和时间长度。
采样模块对平稳变化的位置、尺度和时间长度的局部体积进行采样。
与一般卷积块一样,特征提取模块由几个卷积和ReLU层组成。
融合模块由全局和局部输出的级联层形成,后跟1 × 1 × 1 1\times 1 \times 11×1×1卷积层。
在实践中,现有3D主干CNN的任何构建块都可以被视为全局路径,并且提出的局部路径可以很容易地插入到这些块中,而无需改变训练方案。此外,对于不同的配置,局部操作中每个组件的体系结构都非常灵活。
2 主要贡献
1.与C3D、P3D和非局部网络相比,作者为主干3D CNN设计了一个新的构建块,它包含人体特定部位的序列信息,称为3D局部卷积神经网络。
2.实现了一种简单但有效的3D局部CNN,用于步态识别。该模型在两个最流行的数据集 CASIA-B 和 OU-MVLP 上优于最先进的步态识别方法。
3.据作者所知,他们是第一个提出这个框架的人,该框架能够在任何3DCNN层中交互/增强全局和局部3D体积信息。
3 方法
在本节中,首先定义了3D 局部卷积的一般公式(第 3.1 节)。然后,展示了一个3D卷积局部块的实例(第3.2节),接着是相应组件的详细定义(第3.2.1、3.2.2和3.2.3节)。最后,介绍了用于步态识别的特定 3D Local CNN 模型(第 3.3 节)
3.1 Formulation
3D 局部卷积可以看作是神经网络中通用卷积运算的一种特殊形式。考虑3D卷积块的输入x ∈ R H × W × T
和相应的输出y,3D 局部卷积定义为:
i 是要计算其响应的输出位置的索引(在R H × W × T 中),j 是x , Ω ( x )邻域中一个可能位置的索引。f 计算 x i 和 x j 的相关系数,g计算位置j 处输入信号的表示,响应由因子C归一化。
3D 局部卷积将邻域定义为具有自适应空间和时间尺度、位置和时间长度的 3D 局部体积:
V是特定局部部位的自适应3D局部体积。
3D 局部卷积操作的基本目标是从给定的输入x 中采样自适应3D体积V 并从这些体积中提取相应的局部特征。
3.2. Instantiation
图2显示了3D局部CNN中构建块的实例。
这个块由一个全局路径和几个局部路径组成,就像在其他3D主干构建块一样。
局部操作有四个组件:定位模块(L)、采样模块(S)、特征提取模块(FE)和融合模块(FS)。
定位模块根据全局特征为相应的局部部位生成局部体积的位置/尺度。
然后,采样模块以给定的位置/尺度对特定的局部三维体积进行采样。
特征提取模块旨在从采样的局部体积中提取特征。
特征融合模块旨在用来融合生成全局和局部特征。
图 2 :3D局部CNN的构建块。有四个组成部分:定位模块、采样模块、特征提取模块和融合模块。
定位模块旨在定位每个身体部位的位置。
采样模块被公式化为应用于输入的特定滤波器(高斯或三线性或混合)。
特征提取模块由几个卷积层和ReLU层组成。
融合模块由全局和局部输出的级联层形成,后跟1×1×1卷积层。为简单起见,这里仅说明三个局部路径(头部、左手和右腿)。
3.2.1 Localization
3.2.2 Sampling
3.2.3 Feature Extraction
如图2所示,特征提取模块用于提取局部路径的特征。所有类型的卷积块,如C3D、P3D和MT3D都是候选块。本文中特征提取模块的当前体现仅限于一个卷积层,该卷积层的滤波器大小为3 × 3 × 3 ,然后是ReLU,这种设计更多是基于方便性而非必要性。特征提取模块中更复杂的体系结构可能带来更大的性能增益,但这不是本文的重点。该模块的输出特征图数量设置为全局路径中的一半。特征提取模块的输出和输入具有相同的高度、宽度和长度。
3.2.4 Feature Fusion
特征融合模块旨在通过综合给定的全局和局部输出来产生更稳健和更具判别力的表示。在本文中,特征融合模块形成为沿通道维度的全局和局部输出的级联层,然后是带有ReLU的1 × 1 × 1 1卷积层,该卷积层基于局部和全局信息的合成来细化表示,并确保基数保持不变。更复杂的机制,比如注意力机制,可能会带来更多的性能提升,但这不是本文的重点。 此模块的输出特征图的数量设置为与全局路径相同。
3.3 3D Local CNN for Gait Recognition
要将本文的3D局部CNN块插入主干CNN,需要根据先验知识定义以下设置:
1)局部路径的数量,
2)每条路径的采样网格中心的先验位置( c x , c y , c t ) ,
3)每条路径的局部采样输出的预期维度( M , N , L )
对于步态识别的特征学习,很自然地定义了六个局部路径,分别对应头部、左臂、右臂、躯干、左腿和右腿。(如图3所示)。按照[1]和常识,人体的头部、左臂、右臂、躯干、左腿、右腿的一般(高、宽、长)比例( p H , p W , p L ) 总结在表3的补充细节中。为了验证三维局部CNN的有效性,本文在主干网络的每两层之后插入了提出的局部操作。主干网络由三个构建块组成。每个块由两个卷积层组成,后面是 ReLU 层。采用了 GaitPart中的空间池化和时间池化、GLN中的紧凑块和线性模块。
图3. 用于步态识别的三维局部CNN的框架(用颜色看更好)。三个区块中的骨干路径与GaitPart相同。每个区块中的六条彩色路径分别对应于头部、左臂、右臂、躯干、左腿和右腿路径
4.Experiments
学习链接
【深度学习】步态识别-论文笔记:(ICCV-2021)用于步态识别的3D局部卷积神经网络相关推荐
- (ICCV-2021)用于步态识别的3D局部卷积神经网络(一)
文章目录 用于步态识别的3D局部卷积神经网络 Abstract 1. Introduction 2. Related Works 用于步态识别的3D局部卷积神经网络 论文题目:3D Local Con ...
- 【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程(十四)(卷积神经网络))
[神经网络与深度学习-TensorFlow实践]-中国大学MOOC课程(十四)(卷积神经网络)) 14 卷积神经网络 14.1 深度学习基础 14.1.1 深度学习的基本思想 14.1.2 深度学习三 ...
- 深度学习语义分割论文笔记(待完善)
在深度学习这一块儿,我最开始使用Unet进行了冠状动脉血管的分割 再后来,我尝试改进Unet,改进损失函数,让网络能有不错的效果 再后来,看到了注意力机制,读了attention unet, 于是,我 ...
- Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review(自动驾驶图像点云融合深度学习综述)论文笔记
原文链接:https://arxiv.org/pdf/2004.05224.pdf II.深度学习的简要回顾 B.点云深度学习 本文将点云深度学习方法分为5类,即基于体素.基于2D视图.基于点.基于图 ...
- 【深度学习】步态识别-论文阅读(无参考意义):Cross-View Gait Recognition Based on Feature Fusion
这里写目录标题 摘要 介绍 相关工作 改进 提出 多尺度特征融合 全局和局部特征融合 特征映射 结论 基于特征融合的跨视图步态识别 摘要 与人脸识别相比,步态识别是最有前途的视频生物特征识别技术之一, ...
- 【深度学习】步态识别-论文阅读:(T-PAMI-2021)综述:Deep Gait Recognition
论文详情: 期刊:T-PAMI-2021 地址:参考笔记 1.Abstract 本文综述了到2021年1月底在步态识别方面的最新进展,以 全面概述了深度学习步态识别的突破和最近的发展,涵盖了广泛的主题 ...
- 「每周CV论文推荐」 初学深度学习人脸识别和验证必读文章
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 人脸识别和验证是当前人脸图像在身份认证领域中 ...
- 【每周CV论文推荐】 初学深度学习人脸识别和验证必读文章
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 人脸识别和验证是当前人脸图像在身份认证领域中 ...
- 【论文学习】人脸识别——DeepFace:深度学习人脸识别开山之作
大家好,从今天开始就要学习人脸识别相关的知识啦,以后也会分享这一类的文章.人脸识别,必不可少的是Facebook AI研究院的这篇. 论文:DeepFace: Closing the Gap to H ...
最新文章
- java8中的函数式数据处理
- 转载:原生JavaScript实现Ajax
- 豪华版飞机大战系列(六)--附源代码
- 你真的会学习吗?从结构化思维说起
- style.display,有点问题
- __doPostBack用法 【csdn】
- 2016.08.19
- 天猫浏览型应用的CDN静态化架构演变
- mysql对sql的支持并不是太好_MySQL数据库优化总结
- java rcfile,hsqldb sqltool rcfile不起作用
- h5跳转小程序页面url_小程序和h5跳转
- Django REST框架
- idea导出文件支持目录结构
- HFSS - 侧馈矩形微带天线设计与仿真
- SPI通信调试(ADXL362)
- linux c++ opencv4安装指南
- 微信小程序JSON数据提取问题
- CVTE2019春招校招笔试、面试经验(硬件测试岗)
- Android私有数据存储,Android获取私有存储目录
- 3D角色遮挡住UI的实现,关于Stencil Buffer,描边,以及其他