达摩院细粒度分类SoftTriple Loss ICCV高引论文深入解读
一、论文&代码
论文链接:SoftTriple Loss: Deep Metric Learning Without Triplet Sampling
引用情况:
开源代码:GitHub - idstcv/SoftTriple: PyTorch Implementation for SoftTriple Loss
二、背景
SoftTriple Loss论文是在图像细粒度分类领域提出了新型度量学习方法,该方法可以被广泛应用于各种搜索、识别等领域中,目前谷歌学术引用240+,相对高引。相比原始论文文档,本文将介绍更多研究过程中遇到的问题点以及相应创新方法的演进历史。
度量学习是一种机器学习方法,它主要用于在相似性度量的基础上进行数据挖掘。具体来说,度量学习通过学习一种函数来度量两个数据样本点的相似性。这种函数称为度量函数,它的目的是在尽可能减少度量错误的同时最小化相似数据样本点之间的距离。典型的度量学习方法包括Triplet Loss、ProxyNCA、Npairs等。度量学习可以应用于许多领域,例如:
1.)图像分类:度量学习可以用来帮助计算机识别图像中的物体。例如,通过学习数据集中的图像时,可以计算出两张图像之间的相似度,从而帮助计算机对新图像进行分类。例如,能够将图像分类到“狗”、“猫”或“其他”的类别中。度量学习在图像识别和分类中的应用非常广泛,且取得了很好的效果。
2.)文本分类:在文本领域,度量学习可以用来对文本进行分类,例如将文本分为正面或负面的情感,或者将它们分类到特定的主题中。假设我们有一组文档,每个文档都属于某一个类别,比如技术文章、新闻报道、娱乐新闻或体育新闻。我们可以训练一个模型,该模型能够将一篇新闻报道与一篇技术文章区分开来,并将它们分别分类到新闻报道或技术文章的类别中。
3.)语音识别:例如,我们可以使用度量学习来学习语音中的特征,并根据这些特征来识别说话人的语音内容。也可以训练一个模型,该模型能够识别一段语音是否是某个特定的人的声音。度量学习在语音识别领域的应用也非常广泛,且取得了很好的效果。
随着深度学习的兴起,度量学习也越来越多的跟深度学习网络得到的特征结合在了一起,本文结合深度学习框架,面向细粒度分类领域,提出了新型的SoftTriple Loss。如下简易示意图所示:
三、方法
该章节面向深度度量学习领域,选取了三类典型的Loss,做了相应的优缺点分析,最后引出本文SoftTriple方法及其创新演进历程解析。
方法1:triplet Loss分析
方法2:SoftMax Loss分析
论文对图像分类以及识别领域大为盛行且简单易用的SoftMax函数做了分析,通过巧妙的简单推导发现SoftMax函数其实就是等价于平滑(体现在每个类都有一个类中心,可理解为每个类共享一个中间proxy节点)的Triplet Loss函数,它的优点就是免triplet采样,一键batch化样本去训练。简易的推导示意如下图:
方法3:Cosine类Loss分析
通过将类中心W与样本特征X进行单位化后,度量学习领域也跟上了一系列引入W*X Cosine距离以及从各个角度加margin的loss论文,可谓风极一时。接下来我们来看下相应Cosine类loss的演进历程以及相应优缺点,如下图:
SoftTriple Loss演进历程解析
类内max相似度
基于上述的优缺点分析,本文的想法是如何通过类似SoftMax免采样的方式,实现可以克服类内样本差异较大的细粒度分类。由于以上的推导已经较为明显,本文的方法就是将SoftMax与Triplet进一步融合,示意图如下:
该初代版本的效果并不好,实现过程中出现了收敛性问题,因为初代版本样本与某个类的相似度是直接粗暴的取与样本特征相似度最大的那个中心来计算的。
类内ave相似度
接着又想到了加权平均的方法,示意图如下:
加权平均的方式是提高了收敛性,但是实验过程中同时发现类中心个数都很大的相应情况。
自适应类中心个数
紧接着通过加入正则的方式,对每个类的类中心个数做了相应的控制,具体过程与效果如下图所示:
四、结果
1. SOTA效果展示
2. SOTA量化对比
五、参考
六、应用
接下来给大家介绍下我们研发的各个域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):
https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary
https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary
https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary
https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary
达摩院细粒度分类SoftTriple Loss ICCV高引论文深入解读相关推荐
- 真有意思,AI高引论文排行榜:OpenAI和DeepMind未进前十,旷视排第二?
文|丰色 发自 凹非寺 源|量子位 哪些机构或国家(地区)发表的AI研究是最具影响力的? 为了弄清这个问题,美国Zeta Alpha平台统计了2020-2022三年之间全世界引用次数前100的AI论文 ...
- 达摩院重要科技突破!空天数据库引擎Ganos解读
简介:Ganos空天数据库引擎是李飞飞带领的达摩院数据库与存储实验室研发的新一代位置智能引擎,采用了平台即服务.多模融合.计算下推和云原生全新处理架构,为政府.企事业单位.泛互联网客户提供移动对象.空 ...
- 解读!10篇人机交互领域高引论文合集
作者:肖健 哈尔滨工程大学 ACM SIGCHI会议是人机交互领域最顶级的国际会议(CCF中国计算机学会认定的A类会议),受到了学术界与工业界的广泛关注与重视. 我们收集整理了CHI 2016年至 ...
- 认识一下阿里的AI殿堂-达摩院
国内三大科技领头羊BAT,BT我们已经介绍过,今天随我一起揭开阿里巴巴技术背后的神秘面纱. 1 达摩院的诞生 1.1 冠名与成立 2017年10月11日,第八届云栖大会在杭州拉开了帷幕,这次大会上,马 ...
- 如何发现异常商业数据?达摩院用这套算法
简介: 作者 | 宋晓旻 小叽导读:本文将集中分享阿里巴巴达摩院机器智能技术时序智能组与阿里数据团队合作成果--异常数据检测技术的演进和商业数据端的应用展示.文中提到的技术由阿里巴巴达摩院决策智能团 ...
- 【研究院】一年了,再看看江湖中的达摩院
国内三大科技领头羊BAT,BT我们已经介绍过,今天随我一起揭开阿里巴巴技术背后的神秘面纱. 作者 | 臧小满 编辑 | 臧小满 01 达摩院的诞生 1.1 冠名与成立 2017年10月11日,第八届云 ...
- 【云栖大会】阿里巴巴成立“达摩院” 引入顶尖科学家3年研发投入将超千亿
点击有惊喜 全球多位顶级科学家集体到访阿里巴巴的悬念今日揭晓:10月11日上午,在2017杭州•云栖大会上,阿里巴巴集团正式宣布成立承载"NASA计划"的实体组织--"达 ...
- 阿里达摩院出手抗疫:AI算法加持,疑似病例基因分析缩短至半小时
乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最新消息,好消息. 针对疫情抗击,来自阿里达摩院,AI发挥作用. 2月1日,浙江省疾控中心上线自动化的全基因组检测分析平台,这一平台由浙江 ...
- 3年研发投入将超千亿 阿里巴巴成立“达摩院”引入顶尖科学家
昨天,全球多位顶级科学家集体到访阿里巴巴的事件刷爆了朋友圈,今天,这些科学家集体到访阿里巴巴的悬念揭晓:10月11日上午,在2017杭州•云栖大会上,阿里巴巴集团正式宣布成立承载"NASA计 ...
最新文章
- 在ASP.NET MVC下实现树形导航菜单
- Jquery入门详解
- 生成学习算法Generative Learning algorithms
- 在Spring项目中使用@Scheduled注解定义简单定时任务
- Delphi 中Tform的visible属性详解
- ueditor php版使用,ueditor 1.2.6 使用方法说明
- windows下ab的安装和压测
- SQL Server的复合索引学习【转载】
- python 解析html 模块_使用 Python 模块—— HTMLParser 解析 HTML 文档元素
- Spring Boot 表单验证
- SQL批量更新 关系表更新
- 【HDU - 3038】How Many Answers Are Wrong 【带权并查集 - 向量偏移】
- K8S学习之helm
- 数据分析—用excel2016和python画箱线图
- 名人漏网之语 --联合早报2007-01-28
- 一、为什么会产生field概念 二、MBAFF
- 简单几步解决 svchost 占用资源过高的问题
- 千峰Java教程:071. 数据结构之链表①
- 公众号网站——微信登录
- linux动态频率调节系统cpufreq,Linux的cpufreq(动态变频)技术
热门文章
- linux 命令行 webcamera,如何在Linux上运行网络摄像头(Run a Webcam on Linux)?
- HDFS PB级数据无感迁移实践
- 企业网盘对比NAS哪个更适合企业
- 数据库DB之MySQLOracle
- python零基础入门教程视频下载-零基础学Python入门教程,视频资源下载
- 爬取的是最好大学网软科中国最好大学排名2019
- html页面特效是怎么做的,HTML5实现晶莹剔透的雨滴特效
- PTA 公路村村通(Prim Kruskal)
- 主攻文推荐攻守都有系统_【图片】【推文】一些喜欢的主攻文_主攻文吧_百度贴吧...
- jsp未正确拼写字 mysql_MySQL5.0中文问题及JDBC数据库连接和JSP汉字编码问题解决方法总结...