人类感知到的信息中,有83%来自视觉,机器人的感知和交互也同样非常依赖机器视觉。因此,视觉传感是机器人理解外界信息的重要手段,随之而来的图像分析,则消耗了机器人等终端设备的大部分算力。如何在出色完成图像分析任务的前提下,尽可能降低终端算力的消耗,是人工智能和机器人产业在降低成本、提升性能时的重要考量。

目前,优必选科技在这一方向上取得了进展,相关研究成果已应用于公司研发的机器人,同时研究团队基于这一研发成果创作的论文《Triplet Ratio Loss for Robust Person Re-identification》(用于鲁棒行人重识别的三元组比例损失函数),被第五届中国模式识别与计算机视觉大会(The 5th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2022)收录。PRCV 2022由中国人工智能学会、中国计算机学会、中国自动化学会和中国图象图形学学会联合主办,是国内顶级的模式识别和计算机视觉领域学术盛会。

优必选科技鼓励和支持研究人员进行原创性、引领性的关键核心技术攻坚,在产业研究中不断发现问题、解决问题,坚持产学研用融合发展,针对产业需求和痛点,做真正有行业价值的学术研究。对算力的高效利用,是人工智能和机器人产业发展的关键问题。如果能以较少的终端算力,出色地完成图像分析任务,不仅能够降低成本,还能腾出算力让机器人完成更多复杂任务,向更加智能化迈进。

论文原标题:Triplet Ratio Loss for Robust Person Re-identification

下载链接:Triplet Ratio Loss for Robust Person Re-identification | SpringerLink(本论文见论文集P42)

该篇论文提出了三元组比例损失函数(Triplet Ratio Loss),并以行人重识别任务为例,展示了新算法的优越性。过去,行人重识别算法通常通过联合优化交叉熵损失函数(Cross-Entropy Loss,以下简称CE Loss)和2015年谷歌提出的三元组损失函数(Triplet Loss)来训练模型,这种优化方式有两大问题:

1)容易受到训练过程中三元组采样的对间差异性(intra-pair variation)的影响

2)训练过程中的不合理的优化梯度可能会导致模型坍缩。

针对上述问题,近年来的主要改进方法依然局限于基于间隔超参(margin)的三元组损失模式,例如改进采样方式、引入自适应的间隔超参等等。尽管提升了模型的性能 ,这些改进方法仍然没有显式地解决优化梯度不合理的问题。为了解决上述问题,本文提出了三元组比例损失(Triplet Ratio Loss),该损失函数提出了一种全新的基于比例的优化机制,直接优化类内距离与类间距离之间的比值,并约束其小于提前设置的超参。三元组比例损失的主要优点包括:

  1. 缓解了由于三元组采样过程中对间不一致性问题带来的模型性能损失;
  2. 改善了模型训练过程中的优化梯度和模型的收敛状态。

实验证明,本文提出的三元组比例损失可以有效地提升行人重识别模型在目前已有的三个公开数据集上的性能,能够在受限的算力下使用更小的模型实现同等的准确率效果。

方法对比

  1. 三元组损失

经典的行人重识别模型一般使用联合优化交叉熵损失函数和三元组损失来训练模型。顾名思义,三元组损失的输入为一个特征三元组{fafpfn},其中fafpfn分别为基准图像特征、正样本图像特征和负样本图像特征。三元组损失约束基准图像特征和正样本图像特征之间的距离D{fafp}与约束基准图像特征和正样本图像特征之间的距离D{fafn}的差值大于一个阈值α,从而达到增大类内相似度、减小类间相似度的优化目标。具体而言,三元组损失的公式如下:

公式(2-1)

其中[*]+=max{*,0}。优化过程中,针对三个图像特征的优化梯度为:

公式(2-2)

然而,由于不同行人可能穿着相似,即类间差异D(fa,fn)很小(如图1-b所示);或者穿着差别很大,即类间差异D(fa,fn)很大(如图1-c所示),导致训练过程中三元组采样存在对间差异性(intra-pair variation),此时采用与图1-a所示的三元组一样的间隔来进行模型训练是不合理的:这将会导致三元组损失中的约束过紧或过松。同时,由于图1-b中负样本对的距离很小,根据公式(2-2)可知,此时三元组损失对该负样本的优化梯度反而很小,同时对正样本的优化梯度不变,若此时正样本对的距离也很大,这会导致使用三元组损失训练的行人重识别模型所提取的特征坍缩至一个点

图 1   intra-pair variation的由来。绿框表示该图像为基准图像或正样本图像,

红框表示该图像为负样本图像。

2.  三元组比例损失

为了应对前文所述的使用联合优化交叉熵损失函数和三元组损失进行模型训练时所存在的问题,我们提出了一种全新的基于比例的损失函数,直接优化类内距离与类间距离之间的比值,并约束其小于提前设置的超参β∈(0,1)。具体而言,三元组比例损失的公式如下所示:

公式(2-3)

优化过程中,针对三个图像特征的优化梯度为:

公式(2-4)

处理对间差异性:与三元组损失相比,三元组比例损失针对不同的三元组给出不同的约束。如图-2所示,当类间差异很小时,三元组比例损失可以放松对正样本对的约束;当类间差异很大时,三元组比例损失可以收紧对正样本对的约束。例如,将超参α和β的值设置为0.4(0.4为经验值,此处仅用于示例,不同数据集下该超参的值可能不一致),三元组损失对正样本对的约束是固定的,但三元组比例损失对正样本对的约束是自适应可调的。具体而言,对于图1-b的三元组图像,由于负样本图像和基准图像很相似,导致D(fa i,fn i)值为0.5,此时,三元组比例损失要求D(fa i,fp i)≤0.2,而三元组损失则要求D(fa,fp)≤0.1,因此,在负样本是困难样本的情况下(负样本图像与基准图像相似),三元组比例损失放松了对正样本对的约束,使得模型训练更加容易;而对于图1-c的三元组图像,由于负样本图像和基准图像差别很大,导致的D(fa i,fn i)值为1,此时,三元组比例损失要求D(fa i,fp i)≤0.4,而三元组损失要求D(fa i,fp i)≤0.6,在负样本是容易样本的情况下(负样本图像与基准图像不相似),收紧了对正样本对的约束,使得训练出来的模型所提取的特征类内更加紧致。

图2 (a)使用三元组损失优化时,{A0,P0,N0}需要进行优化,而{A0,P2,N2}不需要,(b)使用三元组比例损失优化时,{A0,P0,N0}不需要进行优化,{A0,P2,N2}需要,图中的红/蓝/绿矩形框表示在不同的负样本下正样本所需要优化的区域。

更合理的优化梯度:与三元组损失相比,三元组比例损失可给fn i提供更合理的优化梯度。如公式(2-4),三元组比例损失在优化过程中给fn i的梯度幅值与D(fa i,fn i)负相关。因此,如图-3所示,当D(fa i,fn i)很小时,会更加大幅度地优化fn i;而当D(fa i,fn i)很大时,此时已经基本达到优化的要求,会相对更小幅度地优化fn i,这与我们的直觉是相符的。与之相比,三元组损失在优化过程中给fn i的梯度幅值与D(fa i,fn i)正相关,D(fa i,fn i)越大则越大幅度优化fn i,越小则越小幅度优化fn i,这与直觉相悖,且容易导致模型收敛到一个点上。

更进一步地,三元组比例损失在优化过程中给fn i的梯度的幅值与D(fa i,fp i)正相关。因此,当正样本对的两张图像已经很相似时,三元组比例损失不会显著地对fn i进行优化。类似地,三元组比例损失在优化过程中给fp i的梯度的幅值与D(fa i,fn i)负相关,因此当负样本对图像之间已经相差较大时,三元组比例损失不会显著地对fp i进行优化。

图3  (a)使用三元组损失或(b)使用三元组比例损失时,对fa i, fp i和fn i的优化梯度,图中的绿/红色点表示正/负样本,红/蓝/绿虚线表示不同负样本N0/N1/N2下正样本的决策边界,红/蓝/绿箭头表示不同负样本N0/N1/N2下fa i, fp i和fn i的优化梯度。

最终,模型训练时,使用联合优化交叉熵损失函数 + 三元组比例损失来对模型进行训练:

公式(2-5)

其中,LCE表示CE Loss,λ表示三元组比例损失的权重且λ=1。

实验结果

本文在已有的三个公开数据集(即Market-1501 ,CUHK03 和 MSMT17 )上对提出的损失函数进行验证,遵循论文中的实验设置,从定量和定性两方面对所提出的损失函数进行验证。

1.  定量分析——数值结果

表1总结了使用本文提出的Loss训练得到的行人重识别模型和其他论文中的模型的性能对比。由于不同的方法采用不同的策略来提取行人图像的特征,因此,为了更为公平地比较,我们将这些方法分为基于全局特征的方法和基于组件特征的方法,这两类方法在表格中分别记为HF-based Methods和PF-based Methods。

第二,使用本文提出的损失函数训练的ResNet-50模型可达到与基于全局特征的行人重识别模型相当的性能。例如,与3DSL(该论文中使用了额外的3D信息)相比,本文模型在Market-1501数据集上的Rank-1准确率与之相等,而平均均值精度(mean Average Precision,简称mAP)只比其低0.6%。第三,与其他行人重识别领域提出的Loss函数相比,本文提出的Loss所训练的模型在三个数据集上均达到世界领先水平。例如,与Circle loss相比,本文模型在MSMT17数据集上的Rank-1准确率和mAP分别比其高3.0%和5.0%。最后,使用Re-Ranking可以将本文模型在各个数据集上的Rank-1准确率和mAP进一步分别提升至95.8%和93.6%,83.7%和83.9%,85.8%和85.6%,83.5%和71.3%。

表1  行人重识别模型的性能比较

注:IDE表示ResNet-50,“-”表示无数据,RR表示使用Re-Ranking。

2.  定性分析——可视化结果

除了定量分析,图4和图5中的可视化结果进一步地验证了三元组比例损失的优越性。

首先,如图4所示,使用三元组比例损失训练的行人重识别模型所提取的特征明显更加紧致,即类内距离更小、类间距离更大,这表明三元组比例损失可以有效地缓解由于三元组采样过程中对间差异性问题带来的模型性能损失;

然后,如图5所示,在使用三元组比例损失训练过程中,联合优化交叉熵损失函数的下降速度明显比使用三元组损失训练时快,这表明三元组比例损失可以改善模型训练过程中的优化梯度和模型的收敛状态。

图 4  使用(a)三元组损失和(b)三元组比例损失训练的模型所提取的特征分布。

图 5   针对Market-1501数据集进行训练时分类损失的变化过程。

结论

针对三元组损失容易受到训练过程中三元组采样的对间差异性的影响优化梯度不合理的问题,本文提出了一种全新的基于比例的优化机制——三元组比例损失。首先,三元组比例损失直接优化类内距离与类间距离之间的比值,因而可以针对不同的三元组给出不同的约束,缓解对间差异性;其次,三元组比例损失同时考虑正样本对距离和负样本对距离来调整对模型所提取的特征的梯度,使得优化梯度更合理。最后,本文在三个大型公开数据集上的做了大量的实验,结果验证了三元组比例损失的有效性和优越性。

论文以行人重识别任务为例,但在实际应用中,该项技术在行人重识别、跌倒检测、手势识别中都有巨大的应用潜力,目前优必选科技已将该技术有效地应用于智慧商业、智慧康养和人工智能教育等领域,其成效也获得了用户的普遍认可。在使用三元组比例损失训练模型的过程中,由于跌倒数据几无清晰可用的公开数据集,优必选科技计算机视觉团队为求获得真实可信的图像分析效果,历经数月的算法研讨和效果测试,动员近百名成员及同事,在不同区域进行正摔、侧摔,从各个角度进行托马斯全摔,最终验证了损失函数的训练效果。

该项技术的提出,使得算法团队能够在受限的算力下使用更小的模型实现同等的准确率效果,有效地节约了宝贵的算力,从而在现有终端算力水平下,机器能够更快、更节约地完成图像分析任务,在更多创新功能上“算有余力”。在劳动力紧缺、老龄化加剧的大背景下,机器人尤其是人形机器人的发展主要受限于成本高昂,优必选科技将继续着眼于人工智能和机器人产业的实际需要,在成本优先的算力环境中提供更多高性能的算法解决方案,为“让智能机器人走进千家万户,让人类的生活方式变得更加便捷化、智能化、人性化”的使命贡献AI科技力量。

如何破解终端算力困局?PRCV这篇论文让机器人“算有余力”相关推荐

  1. 谷歌用算力爆了一篇论文,解答有关无限宽度网络的一切

    无限宽度神经网络是近来一个重要的研究课题,但要通过实证实验来探索它们的性质,必需大规模的计算能力才行.近日,谷歌大脑公布的一篇论文介绍了他们在有限和无限神经网络方面的系统性探索成果.该研究通过大规模对 ...

  2. 阿里云无影发布生态共荣计划,携手伙伴推动终端算力上云

    2022 年 8 月 11 日,阿里云无影在飞天技术峰会上发布生态共荣计划,与首批生态伙伴完成签约,将携手伙伴共建基于无影架构的生态链,让更多客户共享云计算红利. 多家华南企业代表参与首批生态伙伴签约 ...

  3. 第四范式下的科教研:算力困局怎么解?

    图灵奖得主吉姆·格雷曾将科学技术发展史总结为四个范式: 第一范式是经验证据,源于对自然现象的观察和实验总结:第二范式是理论科学,对自然界某些规律做出原理性的解释:第三范式是计算科学,通过计算模型与系统 ...

  4. 华为诺亚CV方向19篇论文入选ICCV 2019

    点击我爱计算机视觉标星,更快获取CVML新技术 目前,2019年国际计算机视觉大会(ICCV 2019),正在韩国首尔(Seoul)举行.华为公司不仅成为了会议的铂金赞助商,其下属的诺亚方舟实验室更是 ...

  5. 66篇论文入选CVPR 2021,商汤的秘籍竟是“大力出奇迹”

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI CVer ...

  6. 为什么2G/3G和AI擦不出火花?他们用这篇论文告诉你答案

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 都说5G ...

  7. 2017年深度学习必读31篇论文(附下载地址)

    来源:新智元 本文长度为4100字,建议阅读6分钟 本文为你盘点今年最值得关注的深度学习相关论文. 2017年即将擦肩而过,Kloud Strife在其博客上盘点了今年最值得关注的有关深度学习的论文, ...

  8. 干货丨2017年深度学习必读31篇论文(附下载地址)

    2017年已经擦肩而过,Kloud Strife在其博客上盘点了今年最值得关注的有关深度学习的论文,包括架构/模型.生成模型.强化学习.SGD & 优化及理论等各个方面,有些论文名扬四海,有些 ...

  9. DeepMind激起千层浪的这篇论文,并非无所不能

    皇甫琦 葛冬冬 撰稿 金磊 整理自 凹非寺 量子位 报道 | 公众号 QbitAI 本文对DeepMind近期的神经网络求解MIP(混合整数规划)的论文进行了一些初步解读.事实上,相较于此领域近期的类 ...

  10. 从上千篇论文脱颖而出,支付宝论文凭什么获得WWW2020评委认可?

    简介: 蚂蚁金服有多篇论文入选国际顶级学术会议WWW2020,围绕智能服务.认知计算等课题,向行业分享自身沉淀的金融智能应用成果. 2020年4月20-24日,国际顶级学术会议WWW2020(The ...

最新文章

  1. docker客户端连接远程服务器
  2. JavaScript 工作原理之十一-渲染引擎及性能优化小技巧 1
  3. React进阶—性能优化
  4. 好久没到这个地方来.
  5. 第十一届 蓝桥杯 单片机设计与开发项目 省赛 程序设计试题及源码
  6. H5工程师跨页面取值的几种方法
  7. 在maven项目中打开jsp_零基础在intellij中打开一个项目复制粘贴内容即可运行的java拼图...
  8. Gobblin编译支持CDH5.4.0
  9. 如何创建一个Mybatis程序,实现对数据库的简单查询?
  10. SAP License:你是工程师还是顾问
  11. gem ruby on rails 安装出错GemNotFoundException
  12. 【Java与智能设备】ch0501 Intent的使用
  13. php采集规则编写,织梦dedecms图片采集规则的编写方法
  14. 软件需求分析期末试题
  15. 小程序云开发(一):新建云开发模板
  16. Android常见设计模式——观察者模式 (Observer Pattern)
  17. 在CSDN开博第一篇,以及之前在百度空间的一些文章
  18. 抖音小店无货源选品技巧分享,都是最简单的选品方法,一学就会
  19. 容器网络之Flannel:每人一亩三分地
  20. opencv亚像素边缘精度_OpenCV亚像素角点cornerSubPixel()源代码分析

热门文章

  1. OA系统权限管理设计方案
  2. java大数求三角形外心_JAVA求两直线交点和三角形内外心的方法
  3. Online Calculators (在线计算器) - Math Calculators (数学计算器)
  4. 绪论 数据库系统工程师考试分析
  5. 第二章 工具变量法(IV)与两阶段最小二乘法
  6. 代理模式---论坛权限控制代理
  7. xsmax进入dfu模式_DFU模式是什么?苹果XR/XS Max的DFU模式进入与退出方法[多图]
  8. 国产操作系统--NeoKylin基本操作命令汇总(一)
  9. 《赖氏经典英语语法》第五集
  10. 程序员为什么多数秃头?看完这15个瞬间,终于懂了