【论文阅读一】Adaptive Cross-Modal Few-shot Learning
1、introduction
这篇文章提出了一种将语义与视觉知识相结合的自适应的cross-modal。视觉和语义特征空间根据定义具有不同的结构。对于某些概念,视觉特征可能比文本特征更丰富,更具辨别力。但当视觉信息在图像分类中受到限制时,语义表示(从无监督的文本语料库中学习)可以提供强大的先验知识和上下文以帮助学习。此文就是基于此开展研究的,提出了Adaptive Modality Mixture Mechanism(AM3),an approach that adaptively and selectively combines information from two modalities, visual and semantic, for few-shot learning。AM3在基于度量的元学习方法上形成的,通过比较在已学习的度量空间中的距离来实现分类。文章在原型网络Prototypical Networks for Few-shot Learning的思想基础上,加入了文本信息(即语义表达)。
2、algorithm
在AM3中,文章增加了基于度量的FSL方法,以结合由词嵌入模型W学习的语言结构(pre-trained on unsupervised large text corpora),在所有类别中包含了label embeddings。由于考虑到了label embeddings,AM3对每个类修改了原型表达(prototype representation)。有上图(左)就可以看出AM3将视觉和语义特征表达的凸组合形成最终的类原型(category prototype),参数化表示为:
其中:
对于每一个episode(片段)e,类c的嵌入原型(即support set的均值,这里与原型网络设计一致)。
few-shot learning分类的训练是通过在给定的support set来最小化在query set中样本的预测损失。
训练时和原始的原型网络相似,但是这里距离度量改变了,AM3加入了语义信息,此时d为query point与cross-modal 原型的距离。上图(右)现实了AM3的work过程;假设query 样本q是属于类别i的,但是在视觉信息上与q最相近的是(a),(b)显示了每个类的语义原型;在加入了语义嵌入时,AM3修改了原型的位置(c);通过更新,离q最近的原型为类i。
算法流程为:
3、experiments
文章分别在miniImageNet、tieredImageNet(few-shot learning)和CUB-200(zero-shot learning)上进行实验,结果表明AM3性能表现最好,模型简单且易扩展。实验中发现在ZSL领域中的方法扩展到基于度量的方法(FSL)性能都提升了。其余详细的内容见原文。
总结:
看完整片文章,AM3的亮点就是在原型网络的基础上将语义信息与视觉信息相结合,形成一种自适应的模型,即当样本较少时,此时较小,文本信息占主要地位,当较大时,视觉信息占主要地位。
【论文阅读一】Adaptive Cross-Modal Few-shot Learning相关推荐
- 【论文阅读】Adaptive Clustering-based Malicious Traffic Classification at the Network Edge
[论文阅读]Adaptive Clustering-based Malicious Traffic Classification at the Network Edge 原文标题:Adaptive Clu ...
- 模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive
模型预测控制与强化学习-论文阅读(一)Integration of reinforcement learning and model predictive 最近才把初步的研究方向定下来,导师放养,实验 ...
- 论文阅读 Parallelly Adaptive Graph Convolutional Clustering Model(TNNLS2022)
论文标题 Parallelly Adaptive Graph Convolutional Clustering Model 论文作者.链接 作者: He, Xiaxia and Wang, Boyue ...
- 论文阅读:曝光过度,曝光不足增强算法Learning to Correct Overexposed and Underexposed Photos
论文阅读:Learning to Correct Overexposed and Underexposed Photos 需要解决的问题: 曝光误差可能是由多种因素造成的,例如TTL测光的测量误差.硬 ...
- 【论文阅读】Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval
文章目录 阅读目标 问题回答 摘要 引入 方法 网络输入 视觉编码器EvE_vEv和文本编码器ElE_lEl 文本龙骨KlK_lKl 视觉龙骨KvK_vKv 源原型网络PsP^sPs 目标原型 ...
- 论文阅读 - RoSGAS: Adaptive Social Bot Detection with ReinforcedSelf-Supervised GNN Architecture Search
论文: RoSGAS:具有增强的自我监督 GNN 架构搜索的自适应社交机器人检测 论文链接: https://arxiv.org/pdf/2206.06757.pdfhttps://arxiv.org ...
- 论文阅读笔记(7-1)---Supervised Contrastive Learning
原文链接 B站讲解视频 Toutube视频搬运 参考解读 参考解读 研究背景 交叉熵损失函数是分类模型监督学习中应用最广泛的损失函数,但是它具有对噪声标签缺乏鲁棒性.边界性差等特点,泛化能力较差. 研 ...
- 【论文阅读】Siamese Neural Network Based Few-Shot Learning for Anomaly Detection in Industrial Cyber-Physi
文章目录 Abstract 1. Introduction 2. Related Work 2.1 Anomaly Detection techniques for CPS 2.2 Few-Shot ...
- 【论文阅读】3D点云 -- PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
前言 本博客详解遵从论文讲述的顺序.但我们要明确该论文的要点,以更好的阅读论文:针对点云的3个特性,pointnet设计的应对方法,以及设计理念. 点云的无序性:网络使用了对称函数 (maxpooli ...
- 【论文阅读笔记】Efficient and Secure Federated Learning With Verifiable Weighted Average Aggregation
个人阅读笔记,若有错误欢迎指正 期刊:2023 TNSE 论文链接: Efficient and Secure Federated Learning With Verifiable Weighted ...
最新文章
- [Struts2应用开发] JSON的应用
- Javascript闭包,比较好懂的一篇文章
- truffle详细使用教程
- 贪心算法———房间搬桌子
- Python爬虫利器五Selenium用法
- java的equals方法_Java LocalDateTime类| 带示例的equals()方法
- 程序员啊程序员...济南昊锐科技
- QT中QTableWidget清空或删除内容功能
- grpc java 泛型_关于使用GRPC遇到的BUG-Go语言中文社区
- Struts,Spring,Hibernate面试题总结
- 彼之蜜糖,我之砒霜;彼之敝履,吾之瑰宝
- vue项目本地服务器调用豆瓣接口,vue调用豆瓣API加载图片403问题
- H265/HEVC Codec编解码(MP4和TS)
- Rufus制作Ubuntu18.04启动盘并为Dell电脑重装系统
- Python数据分析与实战挖掘
- 磨金石教育插画技能干货分享|学习插画可以从事什么工作?
- idea全局搜索问题
- 我的世界服务器npc怎么修改,我的世界NPCmod教程如何设置任务NPC
- 华为桌面云虚拟机如何安装Ubuntu 20.04.3-live-server
- 偶遇Chrome浏览器“喔唷,崩溃啦”,错误代码(STATUS_STACK_BUFFER_OVERRUN)