小样本学习&元学习经典论文整理||持续更新

核心思想

  本文提出一种基于权重生成的小样本学习算法(AWGIM),这种类型的方法之前在小样本目标检测算法中见到过,就是直接用一个生成器生成分类器的权重参数。本文与其他相关算法(LEO)的区别在于在生成分类器权重时,不仅考虑支持集图像,而且考虑查询集图像。为了实现这一目的,本文引入了互信息(Mutual Information,MI)和注意力机制。整个网络的流程如下图所示

  首先,介绍一下什么是互信息MI——给定两个随机变量 x x x和 y y y,互信息 I ( x ; y ) I(x;y) I(x;y)表示当其中一个变量已知时,另一个变量不确定性的下降程度。如果两个变量是完全独立的,则互信息为0。互信息通常利用两个随机变量分布的KL散度表示

p ( x , y ) p(x,y) p(x,y)表示两个变量的联合分布, p ( x ) ⊗ p ( y ) p(x)\otimes p(y) p(x)⊗p(y)表示两个边缘分布的乘积。为了使生成的分类器权重与查询集图像和支持集图像相关,本文将目标函数定义为最大化权重 w i w_i wi​与查询集图像 x ^ \hat{x} x^和支持集图像 x c i x_{c_i} xci​​之间的互信息

根据互信息定义可得

则目标函数可写为

但是由于后验分布 p ( y ^ ∣ x ^ , w i ) p(\hat{y}|\hat{x},w_i) p(y^​∣x^,wi​)和 p ( x ^ ∣ w i ) p(\hat{x}|w_i) p(x^∣wi​)是未知的,因此需要通过近似方法来计算,目标函数的近似表达为

其中第一项和第三项表示在给定分类器权重的条件下,最大化查询集图像和支持集图像的标签预测概率的对数似然,这等价于最小化预测结果于真实值之间的交叉熵损失函数。
  查询集图像和支持集图像经过特征提取网络后得到对应的特征向量 x ^ \hat{x} x^和 x x x,然后分别通过两个通道进行任务上下文编码和查询集样本编码,本文通过多头注意力机制(multi-head attention)实现编码过程,计算过程如下

式中 Q , K , V Q,K,V Q,K,V分别表示查询 q u e r y query query,键 k e y key key和值 v a l u e value value; W Q j , W K j , W V j W_Q^j,W_K^j,W_V^j WQj​,WKj​,WVj​分别表示第 j j j个头(head)对应的权重矩阵。对于本文而言编码过程包含两个路径:上下文路径和注意力路径。上下文路径目的是用多头自注意力网络(multi-head self-attention network) f θ c p s a f_{\theta_{cp}^{sa}} fθcpsa​​学习支持集图像的表征

在注意力路径中,首先用一个新的多头自注意力网络对支持集图像进行编码

然后再利用一个交互注意力网络(cross attention network) f θ c a a p f_{\theta_{ca}^{ap}} fθcaap​​对查询集图像和支持集图像共同编码

最后将两个分支的输出 x c p x^{cp} xcp和 x ^ a p \hat{x}^{ap} x^ap级联后得到 x c p ⊕ a p x^{cp \oplus ap} xcp⊕ap,利用生成器 g g g输出分类器权重 w w w。本文假设分类器权重 w w w满足带有对角化协方差矩阵的高斯分布,因此生成器输出的是权重 w w w分布的均值 μ w i \mu_{w_i} μwi​​和协方差矩阵 ∑ w i \sum_{w_i} ∑wi​​(对角化矩阵,对角线上的元素为 σ w i \sigma_{w_i} σwi​​),计算过程如下

为了简化计算对于同一类别的 K K K个样本,采用取平均值的方式计算最终的分类器权重 w f i n a l w^{final} wfinal,得到分类器权重后就可以得到查询集和支持集图像对应的预测结果了,也就得到了目标函数中的第一项和第三项,但第二项和第四项尚且未知,因此除了生成器 g g g之外还有两个解码器 r 1 r_1 r1​和 r 2 r_2 r2​,分别用于预测 p θ ( x ^ ∣ w i ) p_{\theta}(\hat{x}|w_i) pθ​(x^∣wi​)和 p θ ( x c i ∣ w i ) p_{\theta}(x_{c_i}|w_i) pθ​(xci​​∣wi​)

实现过程

网络结构

  特征提取器采用4层卷积层网络或ResNet网络,生成器 g g g和解码器 r 1 r_1 r1​和 r 2 r_2 r2​采用两层多层感知机。

损失函数

  目标函数等价于下述损失函数

创新点

  • 采用权重生成的方式实现小样本分类
  • 通过互信息MI和注意力机制将查询集图像和支持集图像结合起来,共同生成对应类别的权重

算法评价

  本文也可以认为是基于参数优化的元学习方法,只不过是学习生成分类器权重参数。整篇文章公式很多,但推导比较详细,整个过程还是非常清晰易懂的。本文中引入的互信息和自注意力机制还有交互注意力机制都是先前文章中没有采用的方案,值得进一步学习和研究。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。

论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》相关推荐

  1. 《Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs》论文阅读笔记

    <Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs>论文阅读笔记 主要挑战贡献: KG上的推理挑战主要 ...

  2. 论文阅读 | NIPS‘20 | Beta Embeddings for Multi-Hop Logical Reasoning in Knowledge Graphs

    很有意思的一篇paper.在众多Knowledge Graph Embedding (KGE) 的论文中通过问题设计和有意思的解决方式脱颖而出. 首先来看看问题设计. 一般的KGE model都是利用 ...

  3. Beta Distribution Guided Aspect-aware Graph for Aspect Category Sentiment Analysis论文阅读笔记(EMNLP2021)

    目录 标题翻译:基于Beta分布引导方面感知图的方面类别情感分析 原文链接:https://aclanthology.org/2021.emnlp-main.19.pdf 摘要: 1 引言 2 相关工 ...

  4. Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration论文阅读笔记

    问题: 因为bert是在长文本(512token长度)预训练的,因此,如果没有特定于任务的微调,BERT在短语和句子上的表现通常比简单基线(如GLoVe的平均池化)更差.且字节2020在EMNLP上的 ...

  5. DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记

    DeepWeak: Reasoning Common Software Weaknesses via Knowledge Graph Embedding 阅读笔记 Article Background ...

  6. [论文阅读笔记] Are Meta-Paths Necessary, Revisiting Heterogeneous Graph Embeddings

    [论文阅读笔记] Are Meta-Paths Necessary? Revisiting Heterogeneous Graph Embeddings 购物返利 www.cpa5.cn 本文结构 解 ...

  7. 论文阅读笔记—Reasoning on Knowledge Graphs with Debate Dynamics(AAAI,2020)

    这是一篇非常有趣的工作,看完会觉得眼前一亮. 论文标题:Reasoning on Knowledge Graphs with Debate Dynamics 发表于AAAI,2020 动机  很多机器 ...

  8. 论文阅读笔记——《a simple but tough-to-beat baseline for sentence embeddings》

    <a simple but tough-to-beat baseline for sentence embeddings>published at ICLR 2017. ICLR会议的论文 ...

  9. Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction论文阅读笔记

    我的博客链接 0. 前言 1. 作者试图解决什么问题? 作者想在KGE中对语义层级(semantic hierarchies)进行建模. 2. 这篇论文的关键元素是什么? semantic hiera ...

  10. 斯坦福图机器学习CS224W笔记自用: Reasoning in Knowledge Graphs using Embeddings

    1. 基于嵌入的知识图推理 目标:如何对知识图进行多跳推理? 知识图推理: 回答多跳查询 路径查询 连接查询 Query2box 示例:生物医学图 知识图谱上的预测查询 我们是否可以进行多跳推理,即在 ...

最新文章

  1. 在CentOS 6.9 x86_64的nginx 1.12.2上开启标准模块ngx_http_auth_request_module实录
  2. WebLogic 数据源密码加密
  3. python文件的读取与写入_python中文件的读取与写入以及os模块
  4. 在单页应用Vue中设置标题(title)
  5. linux-facl权限入门-设置与查看facl权限
  6. 一键生成安卓证书_【带壳截图+电影台词 生成器】
  7. 蓝桥杯 PREV-3 历届试题 带分数 Java版
  8. 事务失败返回_分布式事务有这一篇就够了!
  9. 高中计算机会考操作题frontpage,高中信息技术会考frontpage操作题要点
  10. 数据归档方案(带流程图)
  11. matlab画柱状图斜线,matlab柱状图斜线填充
  12. python开源IP代理池--IPProxys
  13. CentOS Linux自动备份文件按日期备份
  14. 实训4——RFID刷卡开锁
  15. C++ yaml解析实战暨yaml-cpp库使用(1)认识yaml格式
  16. 计算机组成原理肖铁军第二版答案,计算机组成原理(肖铁军编)第二章习题及答案...
  17. 配置apache支持django
  18. @Cacheable和@CachePut区别
  19. innodb buffer pool管理--free list
  20. Python 数据分析之Numpy

热门文章

  1. cod财务系统/对账管理/出纳管理/代理结算管理/报价管理/财务报表/web端财务管理系统原型/财务管理系统/客户费用明细/账单明细/费用明细/账单管理/Axure高保真财务管理系统
  2. 判断一个数2的n次幂的php,如何判断一个数是不是2的n次幂
  3. 【傅老师DarkSouls第一季】04
  4. 考研计算机会计专业大学排名,会计学研究生院校排名
  5. Docsify 的边栏目录如何设置
  6. 通过Powershell修改文件默认打开方式
  7. 美斯坦福手把手教你填写高校学生及家庭情况调查表
  8. 股票自动交易接口的分类
  9. 配置Mac 习惯使用环境
  10. 3D电影为何如此有魅力?重置版的《阿凡达》依旧让人疯狂