RGB-Infrared Cross-Modality Person Re-Identification---阅读
论文地址
源码地址,python2 版本
项目地址
一 提出背景
- 多模态的研究很少,跨白天 夜晚 红外场景
凭这点,作者问鼎顶会 top paper
二 创新点
- 提出SYSU—MM01数据集,该数据集成为多模态研究领域重磅数据集
- 提出 深度零度填充( deep zero-padding)方式
作者开创 行人重识别多模态研究 先河
三 数据集SYSU-MM01
1.1 数据集,点击此处
SYSU : 6个camera 1个exp标签
其中 cam3 cam6 是红外场景IR,cam1 cam2 cam4 cam5 是真实场景RGB
1.2 分别对应下图
1.3 对比其他数据集
四 论文内容
【第 1, 2 , 3 行】在三种网络框架下(one-stream 和 two-stream 以及 Asymmetric FC Layer)运行了SYSU数据集,证明了跨模态的SYSU数据集有效
【 绿色框 】表示参数共享。共享参数的方式(权重共享)源于某篇paper的idea
【 蓝色框或者红色框 】在shallower layers 参数不共享
【第 4 列 】deep layers
【第 1 列,第 2 /3 行】Domain1/Domain2 input 是 RGB image或者IR image
【第 1 列,第 1行】Mixed input是图像与零度矩阵的结果,如下图所示
即 Mix = RGB && zero padding 或者 IR && zero padding
【第 1 列,第 4行】在 One stream 框架下,证明了深度零度填充( deep zero-padding)方式是有效的,能够自主evolving RGB 与IR 图像节点 。是将两种Mix(Mix-RGB和Mix-IR) 以共享参数的方式结合使用,具体如下图
即【fig5 第 2 列,第 1 个矩阵框】是 Mix
【fig5 第 2 列,第 6 个矩阵框】是 Mix
作者通过改进one-stream,使得one-stream在前向传播中实验效果等同于two-stream前向传播效果,如下图所示,其中Domain selection sub-network就是fig5
四 训练
SYSU数据 | 行人数量(491 IDs) |
---|---|
training 阶段 | 296 |
validation 阶段 | 99 |
testing 阶段 | 96 |
testing 阶段 | all search 或者 indoor search 方法 |
---|---|
RGB | 候选集 gallery set |
IR | 查询集 query set |
testing 阶段 all search | sigle / multi (随机选取1—10张) |
---|---|
RGB | cam1 cam2 cam4 cam5 |
IR | cam3 cam6 |
testing 阶段 indoor search | sigle / multi (随机选取1—10张) |
---|---|
RGB | cam1 cam2 |
IR | cam3 cam6 |
参数设置 | 数值 |
---|---|
strict threshold | 0.01 |
loose threshold | 0.05 |
五 实验结果
all search | mAP |
---|---|
sigle-shot | 15.95 |
Multi-shot | 10.89 |
indoor search | mAP |
---|---|
sigle-shot | 26.92 |
Multi-shot | 18.64 |
RGB-Infrared Cross-Modality Person Re-Identification---阅读相关推荐
- 护眼色RGB的数值及在福昕阅读器上的设置方法
护眼色RGB的数值及在福昕阅读器上的设置方法 护眼RGB的数值及效果 福昕PDF阅读器上的设置方法 福昕阅读器(橙色图标版) 福昕高级PDF编辑器(紫色图标版) 查看某种颜色RGB的方法 护眼RGB的 ...
- Detail enhancement for high-dynamic-range infrared images based onguided image filter 阅读笔记
论文链接 摘要 采用引导滤波器分离细节层和背景层,利用改进的直方图投影方式将背景层压缩到8bit,利用滤波器加权系数的增益掩模增强细节分量,然后将两部分进行重组. 1 介绍 考虑到显示器的显示范围以及 ...
- 动作识别阅读笔记(三)《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》
(注:为避免中文翻译不准确带来误解,故附上论文原句.) 论文:Wang L , Xiong Y , Wang Z , et al. Temporal Segment Networks: Towards ...
- 【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
Abstract 卷积网络在动作识别领域带来的提升不像图像领域那么大 提出TSN,基于长距离时序建模的思想,结合时序稀疏采样(sparse temporal sampling)策略和视频级监督(vid ...
- SQL 关于apply的两种形式cross apply 和 outer apply
SQL 关于apply的两种形式cross apply 和 outer apply 阅读目录 SQL 关于apply的两种形式cross apply 和 outer apply Sql学习第四天--S ...
- 多模态情感识别应用论文阅读笔记
1.<A multimodal emotion recognition method based on facial expressions and electroencephalography ...
- 管中窥“视频”,“理解”一斑 —— 视频理解概览
©PaperWeekly 原创 · 作者|Lingyun Zeng 学校|北京航空航天大学 研究方向|计算机视觉 本文通过对视频理解/分类(Video Understanding/Classifica ...
- AAAI 2020 | XIV-ReID:基于X模态的跨模态行人重识别
©PaperWeekly 原创 · 作者|张晓涵 学校|西安交通大学本科生 研究方向|计算机视觉/行人重识别 论文标题:Infrared-Visible Cross-Modal Person Re-I ...
- transformer与视觉
目录 综述 优秀网文 基本transformer 视觉transformer原理 具体的transformer 一般方法 ViT :一张图等于 16x16 个字,计算机视觉也用上 Transforme ...
- 《强化学习周刊》第25期:DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...
No.25 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...
最新文章
- ubuntu12.04安装libgl1-mesa-glx:i386问题解决办法
- 如何跑通第一个 SQL 作业
- 关于使用在webforms里使用routing遇到的问题
- 大图标与小图标模式定义 winform 1110
- PS 滤镜算法原理——染色玻璃
- linux下自己安装软件做成命令
- 如何在Vue中添加百度统计代码?
- 历法 - 时间 干支 二十八星宿 紫白飞星
- 信道编码与信源编码基本
- vs2013 CodeLens
- lfs库下载_Git上传大文件夹LFS
- 关于FPGA实时数字FIR滤波器的实现
- e4a 蓝牙温度app_IIOT应用之Arduino无线蓝牙温湿度和距离测量系统
- python爬虫爬取网页信息
- 神策杯 2018高校算法大师赛(个人、top2、top6)方案总结
- Javascript Flash harness
- 什么是云计算_什么是云?
- [x264]开源编解码器Xvid,x264,ffmpeg性能对比
- 基于iBeacon指纹的室内定位系统论文笔记
- 北斗三号 PPP-B2b 服务性能评估--笔记总结