RGB-Infrared Cross-Modality Person Re-Identification---阅读

2024-05-08 13:05:39

论文地址

源码地址，python2 版本

项目地址

一提出背景

多模态的研究很少，跨白天夜晚红外场景
凭这点，作者问鼎顶会 top paper

二创新点

提出SYSU—MM01数据集，该数据集成为多模态研究领域重磅数据集
提出深度零度填充（ deep zero-padding）方式

作者开创行人重识别多模态研究先河

三数据集SYSU-MM01

1.1 数据集，点击此处
SYSU : 6个camera 1个exp标签
其中 cam3 cam6 是红外场景IR，cam1 cam2 cam4 cam5 是真实场景RGB

1.2 分别对应下图

1.3 对比其他数据集

四论文内容

【第 1， 2 ， 3 行】在三种网络框架下（one-stream 和 two-stream 以及 Asymmetric FC Layer）运行了SYSU数据集，证明了跨模态的SYSU数据集有效

【绿色框】表示参数共享。共享参数的方式（权重共享）源于某篇paper的idea
【蓝色框或者红色框】在shallower layers 参数不共享
【第 4 列】deep layers

【第 1 列，第 2 /3 行】Domain1/Domain2 input 是 RGB image或者IR image
【第 1 列，第 1行】Mixed input是图像与零度矩阵的结果，如下图所示

即 Mix = RGB && zero padding 或者 IR && zero padding

【第 1 列，第 4行】在 One stream 框架下，证明了深度零度填充（ deep zero-padding）方式是有效的，能够自主evolving RGB 与IR 图像节点。是将两种Mix（Mix-RGB和Mix-IR）以共享参数的方式结合使用，具体如下图

即【fig5 第 2 列，第 1 个矩阵框】是 Mix
【fig5 第 2 列，第 6 个矩阵框】是 Mix

作者通过改进one-stream，使得one-stream在前向传播中实验效果等同于two-stream前向传播效果，如下图所示，其中Domain selection sub-network就是fig5

四训练

SYSU数据	行人数量（491 IDs）
training 阶段	296
validation 阶段	99
testing 阶段	96

testing 阶段	all search 或者 indoor search 方法
RGB	候选集 gallery set
IR	查询集 query set

testing 阶段 all search	sigle / multi (随机选取1—10张)
RGB	cam1 cam2 cam4 cam5
IR	cam3 cam6

testing 阶段 indoor search	sigle / multi (随机选取1—10张)
RGB	cam1 cam2
IR	cam3 cam6

参数设置	数值
strict threshold	0.01
loose threshold	0.05

五实验结果

all search	mAP
sigle-shot	15.95
Multi-shot	10.89

indoor search	mAP
sigle-shot	26.92
Multi-shot	18.64

RGB-Infrared Cross-Modality Person Re-Identification---阅读相关推荐

护眼色RGB的数值及在福昕阅读器上的设置方法
护眼色RGB的数值及在福昕阅读器上的设置方法护眼RGB的数值及效果福昕PDF阅读器上的设置方法福昕阅读器(橙色图标版) 福昕高级PDF编辑器(紫色图标版) 查看某种颜色RGB的方法护眼RGB的 ...
Detail enhancement for high-dynamic-range infrared images based onguided image filter 阅读笔记
论文链接摘要采用引导滤波器分离细节层和背景层,利用改进的直方图投影方式将背景层压缩到8bit,利用滤波器加权系数的增益掩模增强细节分量,然后将两部分进行重组. 1 介绍考虑到显示器的显示范围以及 ...
动作识别阅读笔记(三)《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》
(注:为避免中文翻译不准确带来误解,故附上论文原句.) 论文:Wang L , Xiong Y , Wang Z , et al. Temporal Segment Networks: Towards ...
【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
Abstract 卷积网络在动作识别领域带来的提升不像图像领域那么大提出TSN,基于长距离时序建模的思想,结合时序稀疏采样(sparse temporal sampling)策略和视频级监督(vid ...
SQL 关于apply的两种形式cross apply 和 outer apply
SQL 关于apply的两种形式cross apply 和 outer apply 阅读目录 SQL 关于apply的两种形式cross apply 和 outer apply Sql学习第四天--S ...
多模态情感识别应用论文阅读笔记
1.<A multimodal emotion recognition method based on facial expressions and electroencephalography ...
管中窥“视频”，“理解”一斑 —— 视频理解概览
©PaperWeekly 原创 · 作者|Lingyun Zeng 学校|北京航空航天大学研究方向|计算机视觉本文通过对视频理解/分类(Video Understanding/Classifica ...
AAAI 2020 | XIV-ReID：基于X模态的跨模态行人重识别
©PaperWeekly 原创 · 作者|张晓涵学校|西安交通大学本科生研究方向|计算机视觉/行人重识别论文标题:Infrared-Visible Cross-Modal Person Re-I ...
transformer与视觉
目录综述优秀网文基本transformer 视觉transformer原理具体的transformer 一般方法 ViT :一张图等于 16x16 个字,计算机视觉也用上 Transforme ...
《强化学习周刊》第25期：DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...
No.25 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

最新文章

热门文章