用于细粒度零样本学习的堆叠语义引导注意力模型
Stacked Semantics-Guided Attention Model for Fine-Grained Zero-Shot Learning

本文亮点:使用过类别语义引导视觉特征,加权不同局部特征。

Abstract: Zero-Shot Learning (ZSL) is achieved via aligning the semantic relationships between the global image feature vector and the corresponding class semantic descriptions. However, using the global features to represent fine-grained images may lead to sub-optimal results since they neglect the discriminative differences of local regions. Besides, different regions contain distinct discriminative information. The important regions should contribute more to the prediction. To this end, we propose a novel stacked semantics-guided attention (S2GA) model to obtain semantic relevant features by using individual class semantic features to progressively guide the visual features to generate an attention map for weighting the importance of different local regions. Feeding both the integrated visual features and the class semantic features into a multi-class classification architecture, the proposed framework can be trained end-to-end. Extensive experimental results on CUB and NABird datasets show that the proposed approach has a consistent improvement on both fine-grained zero-shot classification and retrieval tasks.

零样本学习是通过对齐图像全局特征向量和对应的类别语义描述之间的语义关系实现的。然而,使用全局特征来表示细粒度图像可能会导致次优结果,因为这种表示忽略了局部区域的判别性差异。另外,不同区域包含了不同的判别性信息。重要的区域对预测结果贡献更大。为此,我们提出了一种新颖的堆叠语义引导注意力(S2GAS^2GAS2GA)模型,通过使用单独的类别语义特征来逐步引导视觉特征以生成用于加权不同局部区域的重要性的注意力图来获得语义相关特征。将集成的视觉特征和类语义特征输入到多类分类架构中,可以对提出的框架进行端到端的训练。在CUB和NABird数据集上的大量实验结果表明,所提出的方法在细粒度零样本分类和检索任务方面都有一致的改进。

亮点:使用加权局部特征来执行ZSL任务


问题

细粒度零样问题。

如图1所示,全局特征仅捕获一些整体信息,相反,区域特征捕获与类别语义描述相关的更多局部信息。

Motivation:当试图识别未见类别的图像时,人们更多关注基于关键类别语义描述的信息区域。此外,人类通过排除不相关的视觉区域并以渐进的方式定位最相关的视觉区域来实现语义对齐。

零样本问题中,模型是如何学习已知类和未知类的关系的?
答:通过学习一个好的视觉语义映射。因为已知类和未知类共享属性空间,所以一个好的视觉语义映射,可以让在已知类上训练的模型,很好的泛化到未知类。【这个回答很牵强,没有说出模型如何学习语义偏置的。】


方法

多层注意力机制

创新点:间接学习注意力图,通过类语义描述引导加权不同区域。

语义描述是怎么嵌入网络的???

f - 局部嵌入网络
输入:局部特征VIV_IVI​
输出:?
g - 语义引导网络
输入:融合局部特征(全局)VGV_GVG​ + 类别语义向量ccc
输出:?

Fusion是什么操作?

从公式1看,fusion也是按像素乘的操作。

(1)hA=tanh(f(VI)⊕g(VG))h_A=tanh(f(V_I) \oplus g(V_G)) \tag {1}hA​=tanh(f(VI​)⊕g(VG​))(1)

(2)pI=softmax(WPhA+bP)p_I=softmax(W_Ph_A+b_P) \tag {2}pI​=softmax(WP​hA​+bP​)(2)

hA∈Rd×mh_A \in R^{d \times m}hA​∈Rd×m是隐含空间的融合特征
VI∈Rp×mV_I \in R^{p \times m}VI​∈Rp×m 是区域特征向量,mmm个ppp维的区域特征向量
VG∈RpV_G \in R^pVG​∈Rp是融合特征向量
⊕\oplus⊕表示按像素乘法
pI∈Rmp_I \in R_mpI​∈Rm​是区域特征的注意力概率

(3)f(VI)=h(WI,AVI)f(V_I)=h(W_{I, A} V_I) \tag {3}f(VI​)=h(WI,A​VI​)(3)

(4)g(VG)=h(WG,Ah(WG,SVG))g(V_G)=h(W_{G, A}h(W_{G, S} V_G)) \tag {4}g(VG​)=h(WG,A​h(WG,S​VG​))(4)

hhh是一个非线性函数(实验中使用ReLU)
WI,A∈Rd×pW_{I, A} \in R^{d \times p}WI,A​∈Rd×p, WG,S∈Rq×pW_{G, S} \in R^{q \times p}WG,S​∈Rq×p, WG,A∈Rd×qW_{G, A} \in R^{d \times q}WG,A​∈Rd×q是要学的参数,其中,qqq是类别语义空间的维度,ddd是隐含空间的维度。

(5)min⁡LossG=∣∣h(WG,S,VG)−s∣∣\min Loss_G=|| h(W_{G, S}, V_G) - s || \tag {5}minLossG​=∣∣h(WG,S​,VG​)−s∣∣(5)
为了将类别语义信息嵌入到注意力网络,ggg网络的第二层的输出强制靠近对应的类别语义特征。


数据

输入:2个鸟类数据集。

  •   属性数据集—CUB   : 200类,11,788张图片,每类312维属性。
  • 非属性数据集—NABirds:1011类,48,562张图片。

类别语义特征有三种:类级属性、Word2Vec、TF-IDF。
训练时,TF-IDF维度为CUB-200维,NABirds-400维。

输出:分类准确率

实验1——传统ZSL实验结果对比,在CUB数据集上

其中,

  • 视觉表示:VGG特征 / GoogleNet特征
  • 语义表示:属性向量 / 词向量

第一个实验,论文方法用的是局部特征,而其他方法用的是全局特征。
GTA表示根据位置标注得到的局部特征。
DET表示通过检测方法得到的局部特征。

实验2——ZSL实验结果对比,在CUB数据集上

为了公平起见,

  • 实验2使用了相同的视觉特征(检测局部特征)和相同的语义特征(TF-IDF,词频-逆文件频率)。
  • 使用了两种数据集分割设置,超类共享(Super-Category-Shared,SCS)和超类排除(Super-Category-Exclusive,SCE)。SCE设置下,超类不共享,小类别之间的相关性最小,知识迁移更难,更具挑战,所以效果更差。

特征表示的效果

特征表示影响分类准确率:

  1. 从特征表示看,
    1)所有方法在使用标注区域特征时性能最高。
    2)说明局部特征导致了ZSL性能的提升。
  2. 从语义表示角度看,类级别的属性包含更丰富的语义信息。

注意力机制的收益

  • 局部特征:DET特征,即检测区域作为局部特征
  • 数据集分割:SCS设置,超类共享
  • baseline是没用注意力机制的方法

ZSL 检索

The task of zero-shot retrieval is to retrieve the relevant images from unseen class set related to the specified class semantic descriptions of unseen classes.
零样本检索任务的目标是:在未见类别数据集中检索相关图像,其中该未见类别与未见类别的指定未见类别语义描述相关。

  • 检索任务的可视化结果发现,性能好的类别,他们的类内变化很微小;性能差的类别,他们的类间变化很小。例如,第一行,靛青鸟的前6个检索图像都来自标注类别;因为他们的视觉特征相似。而,请求“黑嘴杜鹃”检索到一些实例来自它的姻亲“黄嘴杜鹃”,因为他们的视觉特征太像了没法区分。

总结

本论文贡献:

  • 使用局部特征,从表1看,标注局部特征的收益是6.4%(CUB数据集)
  • 使用堆叠注意力,从表3看,注意力的收益是6.4%(CUB数据集)

[NIPS 18] Stacked Semantics-Guided Attention Model for Fine-Grained Zero-Shot Learning相关推荐

  1. Multi-Decoder Attention Model with Embedding Glimpse for Solving Vehicle Routing Problems 学习笔记

    文章目录 摘要 零.一些基础 1.波束搜索(Beam Search) 2.Glimpse层 一.介绍 二.相关工作 三.模型 1.多译码器注意力模型和搜索(Multi-Decoder Attentio ...

  2. Attention Model(注意力模型)学习大全

    深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个 ...

  3. 深度学习笔记——Attention Model(注意力模型)学习总结

    深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个 ...

  4. 以Attention Model为例谈谈两种研究创新模式

    在研读AttentionModel相关文献过程中,我再次深切感受到了科研中的两种创新模式:模型创新与应用创新.若干年前,也就是在我年轻不懂事的花样年华里,具体而言,就是在科学院读博士的后期,这种感受就 ...

  5. Attention Model(注意力模型)思想初探

    1. Attention model简介 0x1:AM是什么 深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但 ...

  6. 【NLP】Attention Model(注意力模型)学习总结

    最近一直在研究深度语义匹配算法,搭建了个模型,跑起来效果并不是很理想,在分析原因的过程中,发现注意力模型在解决这个问题上还是很有帮助的,所以花了两天研究了一下. 此文大部分参考深度学习中的注意力机制( ...

  7. (转载)自然语言处理中的Attention Model:是什么及为什么

    转载说明来源:http://blog.csdn.net/malefactor/article/details/50550211 author: 张俊林 原文写得非常好! 原文: 要是关注深度学习在自然 ...

  8. 从2017年顶会论文看Attention Model - PaperWeekly 第50期

    作者丨黄瑾 学校丨中国人民大学在读硕士 研究方向丨数据挖掘,人工智能 1. 前言 2017 年 KDD,Sigir 以及 Recsys 会议被接收的论文早已公示,本文对这些会议中 Attention ...

  9. 自然语言处理中的Attention Model:是什么以及为什么[二]

    转载自  自然语言处理中的Attention Model:是什么以及为什么[二] 自然语言处理中的Attention Model:是什么以及为什么[二] 1.Attention Model 图一见下: ...

  10. 自然语言处理中的Attention Model:是什么以及为什么[一]

    转载自  自然语言处理中的Attention Model:是什么以及为什么[一] 自然语言处理中的Attention Model:是什么以及为什么[一] 1.前言 要是关注深度学习在自然语言处理方面的 ...

最新文章

  1. SQLserver2008数据表的修改操作
  2. Spring-学习笔记02【程序间耦合】
  3. Cloud for Customer UI上点了checkbox后发送到后台的事件
  4. 单调栈思维 2021年度训练联盟热身训练赛第三场——K题 Summer Trip
  5. windows 下安装rabbitmq
  6. Linux笔记-iptables模拟公司环境配置
  7. (18)FPGA面试题查找表的原理与结构
  8. 170630、springboot编程之普通类中调用spring管理的bean对象
  9. C# 列表中查找大小比较
  10. 手机基带芯片激荡 30 年!
  11. 组态王曲线控件读取access_组态王,历史趋势曲线控件例程说明文档
  12. PHP字体向右移动,CSS3如何实现文字向右循环闪过效果以及可在移动端使用的实例代码分享...
  13. 学渣的c#复习手记 类 一
  14. chrome提示安装unity web player
  15. 没有电脑基础能学计算机专业吗,没有绘画基础想学电脑绘画该怎么学?
  16. 博览无限搜索导航,天下没有搜不到的内容,人人少年开卷天才
  17. Android做一个WiFi信号测试,Android开发——WiFi信号检测
  18. 远程访问大华摄像头_通过WEB调用大华网络摄像头
  19. Weka数据挖掘——选择属性
  20. PS马卡龙渐变海报制作教程

热门文章

  1. 配合字体图标的搜索框
  2. 基于自适应决策算子的鲸鱼优化算法-附代码
  3. mtk android内核代码,mtk log系统详解
  4. python3贴吧_python3模拟百度登录并实现百度贴吧签到示例分享(百度贴吧自动签到)...
  5. 了解KK音标以及相似音标如何学习记忆
  6. 软考中的嵌入式系统设计师为什么考的人少?
  7. 一个小实验告诉你,内存速度到底比硬盘快多少!!!
  8. Win11磁盘被写保护怎么办?Win11磁盘被写保护解除方法
  9. OpenGL为什么配置GLAD及GLFW
  10. JAVA常用工具类汇总