智能终端总逃不开安迪-比尔定律,无论硬件性能有多大提升,都会被软件的更新换代消耗殆尽。人类对美好生活的追求是无止境的,这也决定了软件的更新换代不会停止,决定了终端算力的持续稀缺。为了解决这一问题,智能硬件产业界由此走出了“复杂问题上云解决”和“算法轻量化以适配终端”两条主流的解决路径。

优必选人形机器人Walker X视觉识别

在“算法轻量化以适配终端”这条道路上,优必选科技深耕多年,伴随着机器人产业的商业化实践,也摸索出了一批卓有成效的算法轻量化方法论。相关研究成果已应用于公司研发的机器人,同时研究院团队基于这一研发成果创作的论文《RA Loss: Relation-Aware Loss for Robust Person Re-identification》(用于鲁棒行人重识别的关系感知损失函数),被第16届亚洲计算机视觉会议(The 16th Asian Conference on Computer Vision, ACCV2022)收录。ACCV 是两年一度的领先国际会议,主要由亚洲计算机视觉联合会主办,该会议为研究人员、开发人员和从业者提供了一个交流计算机视觉及相关领域的新问题、解决方案和技术的重要平台,并征集高质量的原创研究进行发表。

论文原标题:RA Loss: Relation-Aware Loss for Robust Person Re-identification

下载链接:

https://openaccess.thecvf.com/content/ACCV2022/papers/Wang_RA_Loss_Relation-Aware_Loss_for_Robust_Person_Re-identification_ACCV_2022_paper.pdf


该篇论文提出了用于鲁棒行人重识别的关系损失函数,相比现有算法,新算法能以更少的算力实现同等的识别性能。以下是本论文的核心观点:

现有用于行人重识别任务的基于关系的损失函数往往由两个步骤组成:首先,构造正样本对和负样本对;然后,对正负样本对施加约束以提高类内紧致性和类间分离性。然而,在一次优化过程中,传统的基于关系的损失函数往往只考虑几个样本对的信息,而忽略了所有样本对所包含的更为宏观的信息。这将不可避免地带来对间差异性问题(intra-pair variation),即不同的同类型样本对的收敛状态不一致。

针对上述分析,我们提出了关系感知损失函数(Relation-Aware Loss,简称RA Loss)。RA Loss通过利用样本对之间的关系来缓解对间差异性问题,因而得名关系感知损失函数。关系感知损失函数由两个约束组成,其一为宏观约束(Macro-constraint),其二为微观约束(Micro-constraint)。简言之,宏观约束从宏观角度提高正样本对和负样本对之间的类间分离性(Inter-class separability),即使得两种样本对分得足够开;微观约束则从微观角度分别作用于正样本对和负样本对,其作用在于提高两类样本对的类内紧致性(Intra-class compactness)。两个约束互为补充、相互合作,有效地解决了对间差异性问题,进而提高模型所提取的行人图像特征的鲁棒性(Robustness)和表征能力(Representation Ability)。

实验证明,本文提出的RA Loss可以有效地提升行人重识别模型在目前已有的三个公开数据集上的性能,能够在受限的算力下使用更小的模型实现同等的准确率效果。

方法介绍

1. 对间不一致问题

与普通的图像分类不同,行人重识别是一个零样本学习(zero-shot learning,指识别从未见过的数据类别)问题,即训练阶段和测试阶段的行人身份是不重合的。因此,现有行人重识别模型一般使用度量学习(Metric Learning) 的损失函数来辅助训练模型,常见的有对比损失函数(Contrastive Loss)、三元组损失函数(Triplet Loss)、四元组损失函数(Quadruplet Loss)。例如,三元组损失的输入为一个特征三元组{fa, fp, fn},其中fa, fp, fn分别为基准图像特征、正样本图像特征和负样本图像特征。三元组损失约束基准图像特征和正样本图像特征之间的距离D{fa, fp}与约束基准图像特征和正样本图像特征之间的距离D{fa, fn}的差值大于一个阈α,从而达到增大类内相似度、减小类间相似度的优化目标。

图-1 intra-pair variation的图像示例 (a,b,c) 三个正样本对,分别表示十分相似、相似、不相似的样本对。(d,e,f)三个负样本对,分别表示十分相似、相似、不相似的样本对。

然而,如图-1(a,b,c)所示,由于拍摄角度、光照变化以及行人检测的错误等原因,两张同一个行人的图像(即正样本对图像)可能相似,也可能表现出明显的外观差异。类似的,如图-1(d,e,f)所示,由于不同行人可能身着相似的、不同的衣服,两张不同行人的图像(即负样本对图像)的外观可能十分相似,也可能差异明显。此即为行人重识别任务体现出来的对间不一致问题。

2. 宏观约束

常见的度量学习函数在优化行人重识别模型的时候,一次优化过程往往只考虑若干个样本对的信息,而忽略了同一类的所有样本对所体现出来的全局信息。因此,我们提出了宏观约束。简言之,宏观约束利用同一类的所有样本对体现出来的全局信息来提高正样本对和负样本对之间的类间分离性,即使得两种样本对从宏观的角度分得足够开。

宏观约束由两个步骤组成。首先,我们分别计算正样本对和负样本对的样本对中心(pair center):

这里P和N分别表示正样本对和负样本对的样本对数量,

表示第i个正样本对的余弦距离,

表示第i 个负样本对的余弦距离。

然后,如图-2(a)所示,提高正样本对和负样本对之间的类间分离性,宏观约束要求两个对中心分隔的足够远:

图-2 (a)宏观约束作用于两个对中心,使得两者分隔的足够远,(b)微观约束作用于每个样本对,使得两类样本对各自更为紧致。

3. 微观约束

如图-2(a)所述,宏观约束施加于两个对中心,其作用在于使得两类样本对分离的足够远,但是,这尚未解决样本对的对间不一致问题。基于上述分析,我们提出了微观约束,用于优化两类样本对的类内紧致性。

微观约束由两个步骤组成。首先,我们从正样本对和负样本对中选择出“不合格的”样本对:

这里,Spos和Sneg分别表示正样本对和负样本对的方差。

然后,如图-2(b)所示,微观约束作用于这些挑选出来的“不合格的”样本对,促使他们往各自类中心的方向靠拢:

综合宏观约束和微观约束,本文提出的RA Loss可以总结为

实验与分析

为了验证本文提出的RA Loss的性能优越性,本文在已有的三个大型公开数据集(即Market-1501,CUHK03和 DukeMTMC-reID)上对本文提出的RA Loss进行实验验证。所有实验均遵循论文中的实验设置,此外,我们从定量和定性两方面对所提出的RA Loss进行验证。

1. 定量分析——数值结果

表1总结了使用本文提出的RA Loss训练得到的行人重识别模型和其他论文中的模型的性能对比。由于不同的方法采用不同的策略来提取行人图像的特征,因此,为了更为公平地比较,我们将这些方法分为基于全局特征的方法和基于组件特征的方法,这两类方法在表格中分别记为HF-based和PF-based。

第一,在数据集Market-1501上,RA Loss取得了与其他业界先进模型相当的相当的性能,然而,RA Loss只使用简单的PCB来提取行人图像特征,而其他方法使用更为负责的模型来提取行人图像特征。因此,RA Loss有着更低的模型复杂度,能够以更高的效率提取行人图像特征。

第二,在数据集DukeMTMC-ReID上,RA Loss的性能超过了其他所有的基于组件特征的方法和基于全局特征的方法,包括两个最新的基于transformer模型的方法:TransReID和AAFormer。

第三,在数据集CUHK03上,RA Loss的性能依然与最先进的基于组件特征的方法的性能相当。值得注意的是,RA Loss取得了所有基于组件特征的方法里最为高的 Rank-1 准确度。综上所述,上述三个数据集上的性能对比充分地说明了我们提出的RA Loss的性能优越性。

表1 行人重识别模型的性能比较

注:“-”表示无数据,

RR表示使用Re-Ranking[11]。

2. 定性分析——可视化结果

此外,我们还从定性的角度来验证了本文提出的RA Loss的有效性。

第一,我们在图三中比较了三个模型所提取到的正样本对和负样本对分布图。由图三可以得出以下三个结论。(1)baseline模型所提取的正样本对和负样本对的分布存在着明显的重叠,此外,两种样本对的分布都较为松散。(2)宏观约束能够明显地拉开正样本对和负样本对之间的距离(重叠的区域面积明显减小)。(3)微观约束能够明显地使得两类样本对内部更为紧致。上述实验充分地说明了本文提出的宏观约束和微观约束的有效性。

图三 正样本对(绿色)和负样本对(红色)的分布比较。(a)为Baseline模型的样本对分布图;(b)为添加了宏观约束的分布图;(c)为继续添加微观约束的样本对分布

第二,我们在图四种比较了Baseline模型和RA Loss所提取的行人图像的分布。由图四可以看出,RA Loss能够有效地增强类别内部的紧致性,这也有效地说明了本文提出的RA Loss的有效性。

图四 (a)Baseline模型所提取的行人图像特征分布,(b)RA Loss所提取行人图像的特征分布。

结论

针对度量学习损失函数固有的对间不一致问题,本文提出了一个简单但有效的损失函数——关系感知损失函数。关系感知损失函数从宏观和微观两个角度设计了一组互补的约束,共同优化样本对特征,从而解决对间不一致问题。首先,宏观约束作用于正样本对的均值和负样本对的均值,提高正样本对和负样本对之间的类间分离性;其次,微观约束作用于单个的样本对,提高两类样本对的类内紧致性,从而解决对间不一致问题。最后,我们在三个公开的数据集上进行了充分的实验验证,定性和定量的结果均验证了本文提出的关系感知损失函数的有效性和优越性。

论文以行人重识别任务为例,但在实际应用中,该项技术在行人重识别、跌倒检测、手势识别中都有巨大的应用潜力,目前优必选科技已将该技术有效地应用于智慧商业、智慧康养和人工智能教育等领域,其成效也获得了用户的普遍认可。在使用三元组比例损失训练模型的过程中,由于跌倒数据几无清晰可用的公开数据集,优必选科技计算机视觉团队为求获得真实可信的图像分析效果,历经数月的算法研讨和效果测试,动员近百名成员及同事,在不同区域进行正摔、侧摔,从各个角度进行“托马斯全摔”,最终验证了损失函数的训练效果。

该项技术的提出,使得算法团队能够在受限的算力下使用更小的模型实现同等的准确率效果,有效地节约了宝贵的算力,助力全行业共同破解安迪-比尔定律困局。

在劳动力紧缺、老龄化加剧的大背景下,机器人尤其是人形机器人的发展主要受限于成本高昂,优必选科技将继续着眼于人工智能和机器人产业的实际需要,在成本优先的算力环境中提供更多高性能的算法解决方案,为“让智能机器人走进千家万户,让人类的生活方式变得更加便捷化、智能化、人性化”的使命贡献AI科技力量。

逃不开的安迪-比尔定律,在智能机器人时代该如何破解?相关推荐

  1. 统治IT行业的定律-安迪-比尔定律

    摩尔定律给所有IT消费者带来一个希望,如果今天嫌手机贵买不起,等18个月可以用一半的价钱来买. 要真是这样,手机销量就上不去了.IT行业就成了传统行业,没什么发展了. 事实上,手机.PC销量一直在持续 ...

  2. 科普博客:摩尔定律和安迪-比尔定律

    今天学习了计算机的硬件结构,而关于这方面有许多有趣的定律,最著名的要算英特尔创始人戈登摩尔提出的摩尔定律和英特尔前CEO安迪·格鲁夫与微软前任CEO比尔·盖茨提出的安迪-比尔定律: 百度百科上这样介绍 ...

  3. 摩尔定律、安迪-比尔定律、反摩尔定律

    摩尔定律.安迪-比尔定律.反摩尔定律 摩尔定律: 当价钱不变时,集成电路上可容纳的原件数量约18-24个月之内就会增加一倍,性能也将提升一倍.既每一美元能买到的电脑性能,每隔18-24个月就会翻一倍以 ...

  4. 可怕!数据库竟然打破安迪-比尔定律

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ CynosDB是腾讯云自研的新一代高性能高可用的企业级分布式云数据库.融合了传统数据库.云计算与新硬件的优势,100%兼容开源数据库,百万级 ...

  5. 我的世界服务器物品消失,我的世界:逃不开的“定律”,“消失”的钻石,坏掉的红石电路...

    原标题:我的世界:逃不开的"定律","消失"的钻石,坏掉的红石电路 有玩家说<我的世界>一半的灵感都来自现实生活,没错<我的世界>的很多 ...

  6. 什么是安迪比尔定理?

    简介 安迪-比尔定理 (Andy and Bill's Law)是对IT产业中软件和硬件升级换代关系的一个概括.原话是 "Andy gives, Bill takes away.(安迪提供什 ...

  7. 特斯拉这样的新贵,也逃不开给宁德时代打工

    特斯拉这样的新贵,也逃不开给宁德时代打工 出品 l 观点财经 作者 l 木森 7月24日,宁德时代股价报收547.01元/股,总市值突破1.27万亿元. 1.27万亿是什么高度?大概可以排在贵州茅台. ...

  8. 开普勒三大定律和万有引力定律随笔

    开普勒三大定律和万有引力定律随笔 张昊楠 三峡大学物理学系 作者保留本文一切版权,侵权必究 本文未完全写完,这只是初稿,先发着,暑假会对本文进行完善 开普勒行星运动定律的发现 开普勒的发现: 1600 ...

  9. 逃不开的网络抽奖,过不去的虚假广告

    用手机付完款后,常常会跳出来一个抽奖转盘,而奇妙的是你常常能够抽中. 你以为你得到了幸运女神的眷顾?其实你不过是陷入了一个"甜美"的谎言当中. 天下没有白吃的午餐,放在网络抽奖上也 ...

最新文章

  1. [投稿]通过Web界面在多台服务器上批量创建文件
  2. Hive开发要知道数据仓库的四个层次设计
  3. Emscripten教程之入门指导
  4. php 中set是什么_php中set
  5. Oracle多租户体系,Oracle12C 多租户管理
  6. uniapp 微信小程序打包发布
  7. Spring 笔记
  8. 实现第一个Servlet程序
  9. AndroidStudio_android中实现对properties文件的读写操作_不把properties文件放在assets文件夹中_支持读写---Android原生开发工作笔记238
  10. 2.4 使用ARDUINO控制MC20进行GPS数据的获取和解析
  11. Wireflow - 免费开源的用户流程图绘制工具,专为互联网产品打造
  12. 用python 开发FreeCad 入门
  13. 什么是黑盒测试,白盒测试,灰盒测试?
  14. 中国驾照的类型和可驾驶汽车类型
  15. Feng Shui POJ - 3384 [半平面交]
  16. 整数规划---0-1型整数规划
  17. 井通区块链发行通证介绍
  18. dinic 最大流费用流模板
  19. 电池pack结构_锂电池包PACK结构设计需要考虑哪些因素?
  20. 电大本科计算机考试,电大本科计算机考试.doc

热门文章

  1. 13. Redis底层实现 List
  2. MySQL图形化用户界面客户端的安装与介绍(SQLyog)
  3. win10更新后office2016图标显示空白
  4. Go 相关问题及解决办法汇总
  5. VMware克隆Linux虚拟机
  6. JSP学习---jsp简介和理解jsp的本质
  7. 零基础入门 自学 JAVA SE 基础篇(九)instanceof final 开闭原则 多态 抽象(abstract)方法与抽象类 接口(interface)
  8. 9.16nbsp;瑞晟软件笔试
  9. 全网最全最核心的测试用例大纲,看完不会设计测试用例请来打我
  10. IDEA解决打开properties乱码问题