摘要: 跨模态行人重识别技术(cm-ReID)旨在可见光、红外等不同模态图像中识别出同一个人,其在人 机协同、万物互联、跨界融合、万物智能的智能系统与装备中有重要应用。提出一种数据增强的跨模态行人 重识别方法,在波长域进行数据增强的同时保留可见图像的结构信息,以弥合不同模态之间的差距。在此基 础上,基于瑞芯微的 RK3588 芯片设计实现了一套边缘智能终端,并部署了跨模态行人重识别算法。
0 引言
行人重识别(Re-ID),广泛用于视频监控,安
全和智慧城市等各种应用中,旨在解决在不同位置
部署的多个不重叠摄像机中检索感兴趣的行人问题,
由于其在智能视频监控中的重要性,已经引起了计
算机视觉界的越来越多的关注 [1-3] 。当前大量的行人
重识别模型都着眼于可见光-可见光行人图像匹配,
最常见的单模态行人重识别任务,如图1所示,给定

一个探测到的行人图像,并将其与其他不重叠的摄
像机捕获的一组图像进行匹配,该组图库包含所有
可见摄像机数据。由于照明,相机型号差异,视角
变化和姿势变化,前景行人图像可能会变化很大。
尽管存在这些挑战,但随着深度神经网络的发展以
及行人重识别研究的持续推进,在单一可见模态下,
可见光-可见光行人重识别取得了很大的进步并获
得了很高的精度 [4-6]。不过,由于可见光行人重识别

在某些不良的光照条件下,比如在黑夜中无法给出
相应的判别信号。所以如果只通过可见光摄像机,而
没有额外的人工光源,应用将受到限制,因为该系统
在每天的一半时段内都无法正常工作,这就极大地
影响了行人重识别的实际应用。

在实际情况下,如果使用24 h 智能监控系统,可
以在白天通过可见摄像机获取探测图像,而在夜间
通过热像仪捕获图像,图像来自不同的模态。对于实
际应用,现代监视系统通常以双模态运行,即白天
在可见模态下工作,而在夜间自动切换为红外模态。
给定行人的红外图像,目标是匹配相应行人的可见
图像。此跨模态图像匹配任务称为可见光红外行人
重识。与具有丰富色彩信息和结构图案的可见光图
像相比,红外图像是在红外光谱下捕获的,由于可
见光谱的反射率和热光谱的发射率之间存在自然差
异,从而导致外观完全不同,失去了鲜明的颜色特
征。模态差异使得在可见光光谱和红外光谱之间识
别同一个人变得更加困难。这个新问题是一个交叉
模态问题,近年来只有少数相关的前沿工作 [7-9] 。
为推动跨模态行人重识别技术在智能系统与装
备中的实际应用,参考边缘智能终端 [10-15] 的部署应
用,本文提出了一种高效的跨模态波长增强的行人
重识别方法,在波长域进行数据增强的同时保留可
见图像的结构信息,以弥合不同模态之间的差距。同
时,本文基于国产化RK3588芯片设计了边缘智能终
端,部署了跨模态行人重识别算法,并设计实现了
人工智能综合视频监控软件。实践表明,本文提出的
方法在两个基准数据集SYSU-MM01 [16] 和RegDB [17] 上取
得了较好的性能,并能够在实际场景中进行应用部
署。
1 跨模态行人重识别方法
1.1 红外可见光跨模态行人重识别数据集
为了研究可见光红外跨模态行人重识别问题,
需要收集同一行人对应的可见光图像和红外图像,
如图2所示。文献[16]提出了SYSU-MM01数据集,其

中包括了由4个可见光摄像机以及2台在室内和户外
拍摄的近红外摄像机所拍摄的影像,其中的可见光
图像由Kinect V1在明亮的室内房间拍摄,红外图像
是由近红外相机在黑暗条件下拍摄的。

在文献[17]的工作中,提出了一个新的称为
RegDB的可见光热红外数据集,该数据集利用文献
[16]中的原始数据并设计了类似于SYSU-MM01数据
集的架构。RegDB [17] 数据集中,可见光摄像机拍摄的
图像分辨率为800×600像素,红外摄像机拍摄的图
像分辨率为640×480像素,总共采集了412名行人的
8 240张图片(包含4 120张可见光图像和4 120张对
应的红外图像)。主要区别在于,SYSUMM01包含可
见光和近红外图像,而RegDB包含可见光和远红外图
像,这使得一些方法在两个数据集中都难以工作。
由于波长较短,来自SYSU-MM01数据集的近红外图像
具有清晰的边缘和清晰的背景。作为比较,RegDB数
据集中的远红外图像边缘模糊,丢失了许多彩色图
案。
1.2 红外可见光跨模态行人重识别方法
较大的跨模态差异是红外可见光跨模态行人重
识别的最大问题,这是由可见光和热像仪的不同反
射可见光谱和感测到的发射率引起的。可见光图像
具有3个通道,其中包含波长范围为 400~700 nm 的可
见光的颜色信息,包含足够的人的肤色信息,而热图
像具有一个包含不可见光信息的通道,其波长比可
见光的波长更长。因此,这两种方式本质上是不同
的,导致可见光行人重识别中行人的最重要的颜色
信息特征,很难用于红外可见光跨模态行人重识别
的异构数据。当将这两种模态的图像直接进行联合
跨模态学习时,大多数现有的红外可见光跨模态行
人重识别方法变得对参数敏感,难以收敛且计算量
大。

目前的红外可见光跨模态行人重识别方法大多
将输入图像转换为相同或不同的模态图像,或由
GAN 生成相似的图像,受到以下限制:
1) 将可见光图像、灰度图像、红外图像同步输
入网络,但忽略它们对波长的依赖性会丢失波长之
间相关性的大量信息,这将影响最终性能,例如图
3 (a)所示。
2) 不同层次特征之间的不同感受野可能会降低
直接特征融合的效果,因为结果感受野减少。
3) 来自不同模态的图像很少,仅在 3 个 RGB 通
道中保持可见光图像的颜色或简单地将可见图像转
换为灰度图像就限制了跨模态行人重识别的数据增
强,例如图 3 (b)、图 3 (c)所示。
本文提出了一种颜色抖动增强方法,用于数据
增强模型中不同波长之间的关系,如图 3 (d)所示。
在文献 [18] 中提出的基于同质增强的三元跨模态行
人重识别学习方法的基础上,在基于亮度、对比度、
道到增强模态的映射,具体操作中在 torchvision 中
使用 torchvision.transforms.ColorJitter() 函数来实现
亮度、对比度、饱和度和色调空间的随机调整。与
现有的数据增强方法不同 [18] ,颜色抖动增加了每个
波长的多样性,从而为整个输入产生了更多不同强
度波长的信息组合。有了这种颜色抖动,生成的图
像将在不同波长上有效地增加互补信息,而不需要
额外的注释数据。然后将红外、可见、增强模态这 3
种图像经过一个参数共享的单流网络来学习不同图
像输入之间的关系,并根据这种关系从不同的模态
中搜索物体。
2 边缘智能终端部署
2.1 硬件实现
与目标检测、目标跟踪等一般视觉人工智能任
务可采用单一计算机后端不同,跨模态行人重识别
技术是跨摄像机多视角的视觉人工智能任务,涉及
到多路视频流信号的联合分析,在前端设备数量较
多的情况下,单一处理后端难以满足实际的 AI 推理
高计算量需求,限制了整体应用系统的扩展性。
为了验证及演示本文提出的跨模态行人重识别
技术的先进性及实用性,本文单独设计了一套边缘
计算系统实现,如图 4 所示。边缘计算系统以板卡
的形式将跨模态行人重识别神经网络推理单元集成
到每路摄像设备前端。实际工作时,可见光、红外
模态视频流数据经过边缘计算系统实时处理分析后,
将图像与人工智能推理结果一同回传给后端,降低
了数据集中处理的计算压力,且系统弹性可扩展,
不受接入前端设备的数量影响,更符合跨模态行人
重识别任务的实际应用场景需求。
如图 5 所示,边缘计算系统硬件方案以国产瑞
芯微 RK3588 处理器为处理核心,该处理器采用四
核 ARM Cortex-A76+ 四核 Cortex-A55 处理单元,搭
配 16G 板载内存,系统整体具有高性能、低功耗的
特点,典型功耗 10 W 。内置 NPU (神经网络处理单
元),支持 INT4/INT8/INT16/FP16 混合计算,含 3
个 NPU 独立核心,可联合计算亦可单独工作,浮点
计 算 运 算 能 力 高 达
6TOP 。具备
H.264/H.265/VP9/AVS2 等格式的专用编解码硬件模
块,支持高达 8k 分辨率视频流的实时编解码。系统
支持 2 路千兆以太网接口。同时针对多模态视频监
控的特定任务场景,本文方案扩展搭配 ADV7281A
模拟视频解码芯片,提供四路模拟视频接口,兼容
NTSC/PAL/SECAM 多制式模拟视频,形成了完整的
模拟 / 数字视频流的兼容支持能力。提供 5 组 485 接
口,可以对转台、云台等设备进行串口控制。

图 5 基于 RK3588 处理器的边缘智能终端实物图(左为终
端正面,右为终端反面)
2.2 软件环境
边缘计算部署软件环境由 PC 端开发转换环境
与边缘段部署运行环境两部分组成。
PC 端开发转换环境为瑞芯微提供的 RKNN
Toolkit2 工具链,其包含一组兼容 Caffe 、 TensorFlow 、
ONNX 、 PyTorch 等人工智能框架,进行神经网络模
型调整、优化、转换的基础软件工具及多语言编程
接口,用于将训练完成的人工智能网络模型转换输
出为 RKNN 专用格式。如图 6 所示,边缘端部署运
行环境具体包含:
1) 视频流取流模块,用于读取可见光或红外热
成像摄像机视频流,支持 RTSP/RTMP 等网络流格
式的网络摄像机或者 MIPI/USB 接口的数字摄像头
设备。
2) 人工智能神经网络推理核心单元,其为瑞芯
微官方提供的 RKNPU2 基础 NPU 推理环境,其作
用为将 PC 端处理转换后的 RKNN 格式的神经网络
模型部署在芯片专属 NPU 单元中,同时接收取流模
块获取的可见光或者红外视频流进行神经网络推理,
并向后输出推理结果。
3) 流媒体服务器模块,用于将通过人工智能神
经网络处理后的的可见光或红外视频流进行二次推
流输出到后端。针对显控终端软件不同显控需求,
本方案提供 3 种视频流输出方式:针对调试、非 AI
显示功能,提供原始视频流转发透传模式;针对一
般性非交互 AI 推理显示功能,提供叠加显示模式,
即 AI 推理结果与原始视频图像叠加后输出给后端;
针对客户端需要对 AI 推理结果进一步加工的功能,
提供 AI 推理结果单独输出模式。
4) 设备串口控制模块,用于向摄像机前端发送
串口控制命令,控制其转动,扫描等功能动作;
5)Web 服务模块,用于向后端提供直观、易用
的基于 Web 界面的设置接口,同时可实时向后端报
告边缘计算系统运行状态,包括板载各项硬件状态、
软件功能模块、通信状态等部分的实时监测信息,
易于显控终端程序对板载各个系统进行监测,并对
板载资源进行相应的规划与调整。同时提供 GUI 接
口,配置看门狗、上电重连、断线重连、灾难恢复
等功能辅助功能,最大化板载功能的易用性。
该设计方案通过引入层级配置文件的配置方案,
提供系统状态版本切换功能,即可根据具体应用场
景需求,通过上传系统功能配置文件的形式,一键
切换系统工作状态,或者通过提供不同版本的系统
配置文件,针对具体情境进行工作状态动态切换,
便于系统调试或者提供基于场景的工作模式切换功
能。

图 7 边缘智能终端软件依赖关系图

如图 7 所示,该设计通过将系统抽象成相互独
立的功能模块,相互之间通过接口结合配置信息进
行组合形成具体功能的形式,最大化的保持了系统
的扩展性,以适应不断变化的应用需求。同时,模
块化的设计支持对每个独立功能部分进行迭代升级,
或者引入新的功能模块,为系统提供最大化向后扩
展可能性保障。通过 WEB 向用户提供直观、易用的
用户交互接口,系统所有功能设置,参数设置,系
统状态等均可通过该用户接口进行统一设定,最小
化系统使用难度。
3 实验与结果分析
3.1 模型训练与部署
如图 8 所示,模型训练分为以下 4 个步骤:
步骤 1 数据准备及格式转换。将 SYSUMM01、
RegDB多摄像机可见光、红外热成像图像数据混合、
清洗、均衡化后统一转换为 PASVCAL 格式数据文
件。
步骤 2 将预处理的多模态数据进行增强,即在

基于亮度、对比度、饱和度和色调空间的抖动,从
可见图像生成增强模态,在波长域进行数据增强的
同时保留可见图像的结构信息。
步骤 3 根据数据集多模态成分具体构成,决定
模型每个训练周期训练数据分割策略、模型学习率
调整关系等策略参数,构建输出训练模型策略配置
文件。
步骤 4 执行模型训练程序,训练结束后生
成 .pth 格式神经网络模型。
将训练生成的 .pth 神经网络模型权重文件转换
成为瑞芯微专属 RKNN 格式,须先将其转换为
ONNX 格式。 ONNX ( Open Neural Network Exchange )
是一种针对机器学习所设计的开放式的文件格式,
用于存储训练好的模型。它使得不同的人工智能框
架(如 Pytorch, MXNet )可以采用相同格式存储模
型数据并交互。通过调用 torch.onnx 模块将神经网
络模型权重文件转换为 .ONNX 神经网络交换文件。
下面通过调用 RKNN Toolkit2 工具将 .ONNX 文
件转换为瑞芯微专属 RKNN 专属神经网络权重文件
并存储于边缘计算板的预定目录。利用 RK3588 部
署时,实际采集的可见光和红外图像分辨率不一致,
可见光图像分辨率为 1 920 × 1 080 ,红外图像分辨
率为 640 × 512 。实际部署中,将可见光图像降采样
为 640 × 512 作为模型的输入,对不同分辨率的图像

调整为一致的分辨率进行处理。通过与边缘计算版
取流与流媒体服务器模块结合,可完成可见光 / 红外
图像实时读取分析回传后端的完整边缘计算功能。
3.2 实验结果分析
将本文提出的方法与 HCML [19] 、Zero-Pad [16] 、
HSME [20] 、D2RL [21] 、MAC [22] 、MSR [23] 、HAT [18] 在两个基准
数据集 SYSU-MM01 [16] 和 RegDB [17] 上进行了实验和比
较。其中在 SYSU-MM01 数据集上的运行结果如表 1
所示,在 RegDB 数据集上的运行结果如表 2 所示。

同时,将本文设计的边缘智能终端部署于昼夜
安防监控的实际应用场景中,运行效果如图 9 所示,
左侧为可见光图像,右侧为跨模态行人重识别算法
匹配的红外图像。
4 结论
本文研究了红外可见光跨模态行人重识别方法
及基于边缘智能终端的部署。得出主要结论如下:
1) 提出了一种高效的跨模态波长增强的行人重
识别方法,以弥合不同模态之间的差距。该方法在
两个基准数据集 SYSU-MM01 和 RegDB 上取得了
较好的性能
2) 在实践中,基于国产化 RK3588 芯片设计了
边缘智能终端,并部署了跨模态行人重识别算法。
实践表明,能够在昼夜安防监控场景中进行应用部
署。
关于未来的研究方向,可以从如下角度考虑:
1) 构建更高质量的红外可见光数据集:目前基
于红外和可见光的数据集相当匮乏,构建高质量的
数据集有助于以深度学习网络为代表的方法的模型
优化。
2) 利用多模态和传感器信息:结合多种传感器
的空间姿态、性能等参数信息,可以利用更多的先
验信息提升性能。

信迈提供RK3588视觉方案。

基于RK3588+TensorFlow的人工智能跨模态行人重识别方法及应用相关推荐

  1. 跨模态行人重识别研究综述

    跨模态行人重识别研究综述 刘天瑜,刘正熙 摘要:传统的行人重识别主要工作集中在同一模态下的行人重识别上,大部分应用于光源充足的场景.随着视频安防监控要求的不断提升,为了克服可见光摄像头无法全天候进行使 ...

  2. AAAI 2020 | XIV-ReID:基于X模态的跨模态行人重识别

    ©PaperWeekly 原创 · 作者|张晓涵 学校|西安交通大学本科生 研究方向|计算机视觉/行人重识别 论文标题:Infrared-Visible Cross-Modal Person Re-I ...

  3. CVPR2020 | 跨模态行人重识别:共享与特异特征变换算法cm-SSFT

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :SuperMHP, htt ...

  4. 今日 Paper | 跨模态行人重识别;对抗时尚迁移;学会注意错误等

    2020-03-11 15:11:09 目录 跨模态行人重识别:共享与特异特征变换算法cm-SSFT GarmentGAN:具有图片真实感的对抗时尚迁移 学习将纹理从服装图像转移到3D人体 学会注意错 ...

  5. 跨模态行人重识别:Deep Learning for Person Re-identification:A Survey and Outlook(行人重识别综述)

    Deep Learning for Person Re-identification:A Survey and Outlook(行人重识别综述) 写在前面:感谢叶茫博士对AGW的开源,AGW非常适合刚 ...

  6. 跨模态行人重识别:Cross-Modality Person Re-Identification viaModality-Aware CollaborativeEnsemble Learning学习笔记

    基于模态感知的协同集成学习的跨模态行人重识别  简介 本文针对VT-Reid提出了一种基于中间层共享双流网络(MSTN)的模态感知协同集成(MACE)学习方法,该方法同时处理了特征层和分类器层的模态差 ...

  7. 跨模态行人重识别:Hetero-Center Loss for Cross-Modality Person Re-Identification

    Hetero-Center Loss for Cross-Modality Person Re-Identification 目录 Hetero-Center Loss for Cross-Modal ...

  8. 可见光-红外的跨模态行人重识别最新研究成果汇总

    目录 Introduction Challenges Advantages Methods [2020 AAAI] Cross-Modality Paired-Images Generation fo ...

  9. 跨模态行人重识别:RGB-Infrared Cross-Modality Person Re-Identification(2017 ICCV)

    RGB-Infrared Cross-Modality Person Re-Identification 文章目录 RGB-Infrared Cross-Modality Person Re-Iden ...

最新文章

  1. 例题3-4 猜数字游戏的提示(Master-Mind Hints, UVa 340)
  2. Python中文处理(转)
  3. 深入浅出Mybatis系列(八)---mapper映射文件配置之select、resultMap[转]
  4. 经桥科技与湖南文化艺术产业集团合力打造“网乐潇湘”
  5. 第八期:实操:两台路由器,如何分别通过WAN和LAN口连接?
  6. 浏览器打不开python的页面_robotframework,selenium启动不了打不开浏览器的问题访问不了网页...
  7. 为了解决架构的问题,我们需要先理解敏捷的真谛
  8. xshell4的使用经验
  9. python中ascii函数_ascii函数
  10. 图论(七)哥尼斯堡七桥问题
  11. XiaoZi's CrackMe
  12. 线性代数中满足乘法交换律的运算-行列式与迹
  13. 如何让您的CEO沉迷于客户反馈
  14. 屏蔽搜索引擎的无用蜘蛛,减轻服务器压力
  15. 一文总结 Google I/O 2023
  16. RSA进阶之低加密指数攻击
  17. Android实现APK智能安装且安装后自启动,亲测有用!
  18. 人员管理页面html,钉钉网页版登录入口,HR全模块功能进行员工管理
  19. 从 Windows 过度到 Mac 必备快捷键对照表
  20. c++汉字与区位码互转换

热门文章

  1. 【设计模式自习室】门面模式 Facade Pattern
  2. python报错ConversionError: Failed to convert value(s) to axis units
  3. 应届毕业生该如何找工作
  4. 牛客刷题笔记--(数组专项练习1-77)
  5. Linux 查看系统支持的最大的进程数量
  6. 计算e=1+1/1!+1/2!+...当1/n!<1e-7停止
  7. 国泰君安校招IT专场面经-系统开发
  8. php一个中文占几个字节,php中一个字符占用几个字节?
  9. Windows Server 2012R系统检查更新并开启电脑自动更新功能
  10. jsp mysql主机_云主机或服务器如何布署ASP/NET/PHP/JSP/MYSQL/MYSQL这类的运行环境?...