1、introduction

这篇文章提出了一种将语义与视觉知识相结合的自适应的cross-modal。视觉和语义特征空间根据定义具有不同的结构。对于某些概念,视觉特征可能比文本特征更丰富,更具辨别力。但当视觉信息在图像分类中受到限制时,语义表示(从无监督的文本语料库中学习)可以提供强大的先验知识和上下文以帮助学习。此文就是基于此开展研究的,提出了Adaptive Modality Mixture Mechanism(AM3),an approach that adaptively and selectively combines information from two modalities, visual and semantic, for few-shot learning。AM3在基于度量的元学习方法上形成的,通过比较在已学习的度量空间中的距离来实现分类。文章在原型网络Prototypical Networks for Few-shot Learning的思想基础上,加入了文本信息(即语义表达)。

2、algorithm

在AM3中,文章增加了基于度量的FSL方法,以结合由词嵌入模型W学习的语言结构(pre-trained on unsupervised large text corpora),在所有类别中包含了label embeddings。由于考虑到了label embeddings,AM3对每个类修改了原型表达(prototype representation)。有上图(左)就可以看出AM3将视觉和语义特征表达的凸组合形成最终的类原型(category prototype),参数化表示为:

其中:

 对于每一个episode(片段)e,类c的嵌入原型p_c(即support set的均值,这里与原型网络设计一致)。

few-shot learning分类的训练是通过在给定的support set来最小化在query set中样本的预测损失。

 训练时和原始的原型网络相似,但是这里距离度量改变了,AM3加入了语义信息,此时d为query point与cross-modal 原型p'_c的距离。上图(右)现实了AM3的work过程;假设query 样本q是属于类别i的,但是在视觉信息上与q最相近的是p_j(a),(b)显示了每个类的语义原型;在加入了语义嵌入时,AM3修改了原型的位置(c);通过更新,离q最近的原型为类i。

算法流程为:

3、experiments

文章分别在miniImageNet、tieredImageNet(few-shot learning)和CUB-200(zero-shot learning)上进行实验,结果表明AM3性能表现最好,模型简单且易扩展。实验中发现在ZSL领域中的方法扩展到基于度量的方法(FSL)性能都提升了。其余详细的内容见原文。

总结:

看完整片文章,AM3的亮点就是在原型网络的基础上将语义信息与视觉信息相结合,形成一种自适应的模型,即当样本较少时,此时\lambda _c较小,文本信息占主要地位,当\lambda _c较大时,视觉信息占主要地位。

【论文阅读一】Adaptive Cross-Modal Few-shot Learning相关推荐

  1. 【论文阅读】Adaptive Clustering-based Malicious Traffic Classification at the Network Edge

    [论文阅读]Adaptive Clustering-based Malicious Traffic Classification at the Network Edge 原文标题:Adaptive Clu ...

  2. 模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive

    模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...

  3. 论文阅读 Parallelly Adaptive Graph Convolutional Clustering Model(TNNLS2022)

    论文标题 Parallelly Adaptive Graph Convolutional Clustering Model 论文作者.链接 作者: He, Xiaxia and Wang, Boyue ...

  4. 论文阅读:曝光过度,曝光不足增强算法Learning to Correct Overexposed and Underexposed Photos

    论文阅读:Learning to Correct Overexposed and Underexposed Photos 需要解决的问题: 曝光误差可能是由多种因素造成的,例如TTL测光的测量误差.硬 ...

  5. 【论文阅读】Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval

    文章目录 阅读目标 问题回答 摘要 引入 方法 网络输入 视觉编码器EvE_vEv​和文本编码器ElE_lEl​ 文本龙骨KlK_lKl​ 视觉龙骨KvK_vKv​ 源原型网络PsP^sPs 目标原型 ...

  6. 论文阅读 - RoSGAS: Adaptive Social Bot Detection with ReinforcedSelf-Supervised GNN Architecture Search

    论文: RoSGAS:具有增强的自我监督 GNN 架构搜索的自适应社交机器人检测 论文链接: https://arxiv.org/pdf/2206.06757.pdfhttps://arxiv.org ...

  7. 论文阅读笔记(7-1)---Supervised Contrastive Learning

    原文链接 B站讲解视频 Toutube视频搬运 参考解读 参考解读 研究背景 交叉熵损失函数是分类模型监督学习中应用最广泛的损失函数,但是它具有对噪声标签缺乏鲁棒性.边界性差等特点,泛化能力较差. 研 ...

  8. 【论文阅读】Siamese Neural Network Based Few-Shot Learning for Anomaly Detection in Industrial Cyber-Physi

    文章目录 Abstract 1. Introduction 2. Related Work 2.1 Anomaly Detection techniques for CPS 2.2 Few-Shot ...

  9. 【论文阅读】3D点云 -- PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

    前言 本博客详解遵从论文讲述的顺序.但我们要明确该论文的要点,以更好的阅读论文:针对点云的3个特性,pointnet设计的应对方法,以及设计理念. 点云的无序性:网络使用了对称函数 (maxpooli ...

  10. 【论文阅读笔记】Efficient and Secure Federated Learning With Verifiable Weighted Average Aggregation

    个人阅读笔记,若有错误欢迎指正 期刊:2023 TNSE 论文链接: Efficient and Secure Federated Learning With Verifiable Weighted ...

最新文章

  1. [Struts2应用开发] JSON的应用
  2. Javascript闭包,比较好懂的一篇文章
  3. truffle详细使用教程
  4. 贪心算法———房间搬桌子
  5. Python爬虫利器五Selenium用法
  6. java的equals方法_Java LocalDateTime类| 带示例的equals()方法
  7. 程序员啊程序员...济南昊锐科技
  8. QT中QTableWidget清空或删除内容功能
  9. grpc java 泛型_关于使用GRPC遇到的BUG-Go语言中文社区
  10. Struts,Spring,Hibernate面试题总结
  11. 彼之蜜糖,我之砒霜;彼之敝履,吾之瑰宝
  12. vue项目本地服务器调用豆瓣接口,vue调用豆瓣API加载图片403问题
  13. H265/HEVC Codec编解码(MP4和TS)
  14. Rufus制作Ubuntu18.04启动盘并为Dell电脑重装系统
  15. Python数据分析与实战挖掘
  16. 磨金石教育插画技能干货分享|学习插画可以从事什么工作?
  17. idea全局搜索问题
  18. 我的世界服务器npc怎么修改,我的世界NPCmod教程如何设置任务NPC
  19. 华为桌面云虚拟机如何安装Ubuntu 20.04.3-live-server
  20. 偶遇Chrome浏览器“喔唷,崩溃啦”,错误代码(STATUS_STACK_BUFFER_OVERRUN)

热门文章

  1. Git的基本使用(用户初始化配置、新建代码库、把文件提交到缓存区、把文件提交到本地仓库等)
  2. 如何测试 tpc-c
  3. 8266 lua贝壳物联智能开关,更新修正tmr.alarm问题
  4. 如何在Windows和Mac下挂载EFI分区
  5. 见过贪婪的,没见过这么贪婪的
  6. aria2简单下载脚本
  7. 店盈通:如何打造赚钱的拼多多店铺?
  8. 速速收藏——程序员接私活的七大平台
  9. 锐龙r75800H和酷睿i71165G7 选哪个好
  10. 2020研究生数学建模B题——汽油辛烷值优化——获奖论文思路分享