论文地址

源码地址,python2 版本

项目地址

一 提出背景

  • 多模态的研究很少,跨白天 夜晚 红外场景
    凭这点,作者问鼎顶会 top paper

二 创新点

  1. 提出SYSU—MM01数据集,该数据集成为多模态研究领域重磅数据集
  2. 提出 深度零度填充( deep zero-padding)方式

作者开创 行人重识别多模态研究 先河


三 数据集SYSU-MM01

1.1 数据集,点击此处
SYSU : 6个camera 1个exp标签
其中 cam3 cam6 是红外场景IR,cam1 cam2 cam4 cam5 是真实场景RGB


1.2 分别对应下图

1.3 对比其他数据集


四 论文内容


【第 1, 2 , 3 行】在三种网络框架下(one-stream 和 two-stream 以及 Asymmetric FC Layer)运行了SYSU数据集,证明了跨模态的SYSU数据集有效

【 绿色框 】表示参数共享。共享参数的方式(权重共享)源于某篇paper的idea
【 蓝色框或者红色框 】在shallower layers 参数不共享
【第 4 列 】deep layers

【第 1 列,第 2 /3 行】Domain1/Domain2 input 是 RGB image或者IR image
【第 1 列,第 1行】Mixed input是图像与零度矩阵的结果,如下图所示


即 Mix = RGB && zero padding 或者 IR && zero padding

【第 1 列,第 4行】在 One stream 框架下,证明了深度零度填充( deep zero-padding)方式是有效的,能够自主evolving RGB 与IR 图像节点 。是将两种Mix(Mix-RGB和Mix-IR) 以共享参数的方式结合使用,具体如下图

即【fig5 第 2 列,第 1 个矩阵框】是 Mix
【fig5 第 2 列,第 6 个矩阵框】是 Mix

作者通过改进one-stream,使得one-stream在前向传播中实验效果等同于two-stream前向传播效果,如下图所示,其中Domain selection sub-network就是fig5

四 训练

SYSU数据 行人数量(491 IDs)
training 阶段 296
validation 阶段 99
testing 阶段 96
testing 阶段 all search 或者 indoor search 方法
RGB 候选集 gallery set
IR 查询集 query set
testing 阶段 all search sigle / multi (随机选取1—10张)
RGB cam1 cam2 cam4 cam5
IR cam3 cam6
testing 阶段 indoor search sigle / multi (随机选取1—10张)
RGB cam1 cam2
IR cam3 cam6
参数设置 数值
strict threshold 0.01
loose threshold 0.05

五 实验结果

all search mAP
sigle-shot 15.95
Multi-shot 10.89
indoor search mAP
sigle-shot 26.92
Multi-shot 18.64

RGB-Infrared Cross-Modality Person Re-Identification---阅读相关推荐

  1. 护眼色RGB的数值及在福昕阅读器上的设置方法

    护眼色RGB的数值及在福昕阅读器上的设置方法 护眼RGB的数值及效果 福昕PDF阅读器上的设置方法 福昕阅读器(橙色图标版) 福昕高级PDF编辑器(紫色图标版) 查看某种颜色RGB的方法 护眼RGB的 ...

  2. Detail enhancement for high-dynamic-range infrared images based onguided image filter 阅读笔记

    论文链接 摘要 采用引导滤波器分离细节层和背景层,利用改进的直方图投影方式将背景层压缩到8bit,利用滤波器加权系数的增益掩模增强细节分量,然后将两部分进行重组. 1 介绍 考虑到显示器的显示范围以及 ...

  3. 动作识别阅读笔记(三)《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》

    (注:为避免中文翻译不准确带来误解,故附上论文原句.) 论文:Wang L , Xiong Y , Wang Z , et al. Temporal Segment Networks: Towards ...

  4. 【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

    Abstract 卷积网络在动作识别领域带来的提升不像图像领域那么大 提出TSN,基于长距离时序建模的思想,结合时序稀疏采样(sparse temporal sampling)策略和视频级监督(vid ...

  5. SQL 关于apply的两种形式cross apply 和 outer apply

    SQL 关于apply的两种形式cross apply 和 outer apply 阅读目录 SQL 关于apply的两种形式cross apply 和 outer apply Sql学习第四天--S ...

  6. 多模态情感识别应用论文阅读笔记

    1.<A multimodal emotion recognition method based on facial expressions and electroencephalography ...

  7. 管中窥“视频”,“理解”一斑 —— 视频理解概览

    ©PaperWeekly 原创 · 作者|Lingyun Zeng 学校|北京航空航天大学 研究方向|计算机视觉 本文通过对视频理解/分类(Video Understanding/Classifica ...

  8. AAAI 2020 | XIV-ReID:基于X模态的跨模态行人重识别

    ©PaperWeekly 原创 · 作者|张晓涵 学校|西安交通大学本科生 研究方向|计算机视觉/行人重识别 论文标题:Infrared-Visible Cross-Modal Person Re-I ...

  9. transformer与视觉

    目录 综述 优秀网文 基本transformer 视觉transformer原理 具体的transformer 一般方法 ViT :一张图等于 16x16 个字,计算机视觉也用上 Transforme ...

  10. 《强化学习周刊》第25期:DeepMind提出无模型风险敏感强化学习、谷歌发布 RLDS数据集生态系统...

    No.25 智源社区 强化学习组 强 化 学  习 研究 观点 资源 活动 关于周刊 强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

最新文章

  1. ubuntu12.04安装libgl1-mesa-glx:i386问题解决办法
  2. 如何跑通第一个 SQL 作业
  3. 关于使用在webforms里使用routing遇到的问题
  4. 大图标与小图标模式定义 winform 1110
  5. PS 滤镜算法原理——染色玻璃
  6. linux下自己安装软件做成命令
  7. 如何在Vue中添加百度统计代码?
  8. 历法 - 时间 干支 二十八星宿 紫白飞星
  9. 信道编码与信源编码基本
  10. vs2013 CodeLens
  11. lfs库下载_Git上传大文件夹LFS
  12. 关于FPGA实时数字FIR滤波器的实现
  13. e4a 蓝牙温度app_IIOT应用之Arduino无线蓝牙温湿度和距离测量系统
  14. python爬虫爬取网页信息
  15. 神策杯 2018高校算法大师赛(个人、top2、top6)方案总结
  16. Javascript Flash harness
  17. 什么是云计算_什么是云?
  18. [x264]开源编解码器Xvid,x264,ffmpeg性能对比
  19. 基于iBeacon指纹的室内定位系统论文笔记
  20. 北斗三号 PPP-B2b 服务性能评估--笔记总结

热门文章

  1. 名校高考模拟试卷(试题)汇总(陆续更新)
  2. 九度1465:最简真分数
  3. 离线数仓-01-项目介绍和用户行为数据采集
  4. 数据库的基本常用命令
  5. 扑克牌移动 下面代码模拟了一套扑克牌(初始排序A~K,共13张)的操作过程。
  6. 还原精灵的另类卸载方法
  7. 诺奖罗杰.彭罗斯的量子意识及其他(含朱清时-科学与佛学 77分钟视频)
  8. Kotlin+Retrofit + MVVM 的网络请求框架的封装
  9. 打印机共享后每天要重新连接
  10. 元模型驱动架构(M-MDA)思想及应用