手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval
摘要
文中提出了一种新的FG-SBIR(Fine-Grained Sketch-Based Image Retrieval)模型,虽然其本质上是一个常用的多分枝深度结构,不过相比于其它模型,其有以下特点:
1)在每一个深度神经网络上都添加了注意力模块,因此使其对特征的学习可以更多的关注到显著性区域。
2)通过对一个特征融合的方式将粗糙和细致的语义信息进行了融合。
3)引入了一个基于高阶可学习的能量损失(距离)函数,建立了两个模态特征之间的关联关系,使其对不同模态未对齐的特征具有更好的鲁棒性。
关于attention
Sotf attention 因为可微分、可参与端到端的训练因此使用比较广泛。而hard attention由于不可微分,因此常通过强化学习的方式进行学习。在本文中,采用了soft attention模型。当给一个从CNN任意一层计算得到的feature map, soft attention模型将会将该feature map作为输入并生成一个attention mask。之后,利用该mask对输入的feature map进行权重计算从而生成一个attended feature map以传入网络的下一层。如下图所示,文中的attention模块加到了最后一层卷积层的后边。
用 表示feature map f在空间(i,j)上的值,其相应的attention得分和最终的mask α可由以下两个公式得到:
其中 是通过attention module学习得到的mapping function, 是attention module的权重。文中attention module包含两个卷基层。
Attended feature map:
不过,由于特征与图像之间的空间不齐问题会导致上式得到的attended map一方面容易受到噪声影响,另一方面也会丢失原始feature map上的一些重要信息,因此最终的attended feature map通过下式获取:
Coarse-fine 特征融合
尽管由attention module得到的attended feature对空间及细节比较敏感,但是在通过全连接层后很大程度上会丢失这些细节。为了解决该细节丢失的问题,文中对attented feature map和全连接层输出的特征进行了融合。融合的方式为简单的拼接(concatenation operation),在拼接前对attended feature map利用全局average pooling进行了降维操作。
高阶损失函数(HOLEF, higher-order learnable energy function)
一阶损失函数的不足
常用的triplet loss形式如下所示:
当其中的距离函数D()是一阶函数时,比如欧式距离,其关注点仅仅是两个向量对应点之间的减法,而无法考虑非对应点之间的关系,因此无法体现cross-channel之间的关系。为了克服一阶距离的缺陷,文中借助outer subtraction引入了二阶距离函数。outer subtraction 的形式如下:
考虑到并不是所有outer subtraction得到的项都是有价值的,文中引入了权重因子,并最终得到了二阶距离函数:
由此设计的triplet loss:
手绘图像检索:Deep Spatial-Semantic Attention for Fine-Grained Sketch-Based Image Retrieval相关推荐
- FCPX插件-16个手绘卡通素描涂鸦图形文字标题动画 Scribble Sketch Lower Thirds
Scribble Sketch Lower Thirds包含16个手绘卡通素描涂鸦图形文字标题动画模板,一个简约的卡通标题动画,由手绘的文本动画组成,可帮助您轻松改善您影片创意. 这个插件包提供了各种 ...
- 金城教授:基于手绘草图的图像检索技术研究
5 月 26 日下午,在第二十八期七牛云架构师实践日,金城教授进行了<基于手绘草图的图像检索技术研究>为题的演讲.本文是对演讲内容的整理. 作者介绍: 金城,复旦大学计算机科学技术学院教授 ...
- R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering
博主水平有限,大部分为机翻 摘要: 最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式.现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的 ...
- Spatial As Deep: Spatial CNN for Traffic Scene Understanding论文翻译
Spatial As Deep: Spatial CNN for Traffic Scene Understanding论文翻译 Abstract摘要 Convolutional neural net ...
- CVPR2020论文解读:手绘草图卷积网络语义分割
CVPR2020论文解读:手绘草图卷积网络语义分割 Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks ...
- 面向手绘图形,涵盖多个主题,CVPR 2022 SketchDL Workshop开始征稿!
关注公众号,发现CV技术之美 CVPR 2022 第二届面向手绘图形的深度学习研讨会. CVPR 2022, The 2nd Workshop on Sketch-Oriented Deep Lear ...
- 首个面向手绘草图的深度自监督表示学习
点击我爱计算机视觉标星,更快获取CVML新技术 深度自监督学习(deep self-supervised learning)近来受到了极大关注,很多可用于解决图像和视频的自监督学习方法涌现了出来.不同 ...
- GNN手绘草图识别新架构:Multi-Graph Transformer 网络
点击我爱计算机视觉标星,更快获取CVML新技术 本文介绍一篇比较小众但非常有意思的手绘草图识别的新文章<Multi-Graph Transformer for Free-Hand Sketch ...
- 一步一步手绘Spring DI运行时序图(Spring 自动装配之依赖注入)
相关内容: 架构师系列内容:架构师学习笔记(持续更新) 一步一步手绘Spring IOC运行时序图一(Spring 核心容器 IOC初始化过程) 一步一步手绘Spring IOC运行时序图二(基于XM ...
最新文章
- Redis 高可用篇:你管这叫主从架构数据同步原理?
- modbus从站模拟软件_这些操作软件都不知道?趁早别当电气人了
- 学会python怎么赚钱 贴吧_我月薪5000,靠Python搞副业月入3万
- 大兴计算机职业学校,北京大兴区第一职业学校
- http协议 php,PHP中的http协议
- 存储世界瞬息万变 SSD掀行业浪潮
- aws rds监控慢sql_探索AWS RDS SQL Server上SQL Server集成服务(SSIS)
- c语言中{的作用,C语言中Static和Const关键字的作用
- 【转】XP远程桌面连接2008提示:远程计算机需要网络级别身份验证,而您的计算机不支持该验证 ....
- 提交任务photoshop的脚本端
- 【合集】SAP 成都研究院开发工程师们精彩纷呈的工作和生活片段
- java web实现聊天系统_java web在线聊天系统
- 中移动分布式存储超级大单出炉,浪潮等唱主角
- 电脑在使用b站的时候插入耳机,耳机没有声音,只能外放,其他软件可以正常使用。
- 已经买好了域名后怎么建立一个网站
- 【单例模式】Python Singleton
- 读书笔记—做事坚定,做人柔软
- 今天看了you tu be 上面的舞蹈
- 迅为3A5000_7A2000开发板龙芯全国产处理器LoongArch架构核心方案
- 苹果电脑查看已经连上的WiFi密码(亲测可用)
热门文章
- IDcard 验证代码----新身份证合法性验证
- 使用ShaderGraph制作漩涡消散效果
- itext实现pdf内容替换
- B站:你阳了和我裁员有什么关系
- 2023.4.14.吉林长春.晴朗
- 随机事件和概率及概率的性质
- 西宁-青海--茶卡盐湖-敦煌自由行攻略
- 给定平面上任意三个点的坐标(x​1​​,y​1​​)、(x​2​​,y​2​​)、(x​3​​,y​3​​),检验它们能否构成三角形
- CMOS图像传感器——深入ISO
- 最全的基于c++的serialport.cpp与serialport.h类文件(解析版)