笔记整理:李磊,浙江大学硕士,研究方向为自然语言处理 链接:https://arxiv.org/abs/2106.13884

动机

大规模的自回归语言模型(如GPT)在预训练阶段学习到了大量的知识,具有很好的学习新任务的能力,给定几个“任务示例”,模型可以很快的学习到任务形式并回答新问题,但这种能力仅限于文本领域。

Prompt tuning通过添加提示信息,充分挖掘预训练语言模型蕴含的知识,在few-shot场景下取得了良好的效果。

作者提出了Frozen, 利用Visual Encoder对图片进行编码,编码得到的结果作为prompt与文本一起送入语言模型中,试图将大规模语言模型和prompt应用于多模态领域。在VQA、OKVQA、miniImageNet等多个数据集的多模态few-shot场景下进行了实验,结果表明Frozen有效的利用了预训练语言模型的先验知识,具有很好的迁移学习能力。

模型结构

图 1模型结构图

如图1所示,模型结构主要分为两个部分:

1.预训练自回归语言模型

在公共数据集C4上预训练一个基于transformer结构的深度自回归语言模型,模型具有70亿参数。

2.视觉编码器

基于NF-ResNet-50,主要功能是将原始的图片映射为连续的序列以便transformer模型进行处理。将NF-Resnet全局池化层后的结果作为最终输出向量。受Prefix-tuning的启发,作者将视觉编码器的输出作为视觉prefix,与文本一起送入语言模型中。这种方式将静态的文本prefix转换成动态的视觉prefix,输入的图片不同,产生的视觉prefix也不同,从而更好地“提示”语言模型。

训练

如图1所示,训练时采用image-caption数据集,输入是(图片,文本)对,以生成式的方式输出对图片的描述文本信息。训练过程中冻结语言模型,仅训练视觉编码器。在k-shot场景下,需要给出几个示例,因此模型的输入可能会包含多个(图片,文本)对,作者使用相对位置编码使图文始终在对应文本之前。

实验

作者以下三个角度进行了实验:1.Rapid Task Adaptation. 2.Encyclopedic Knowledge. 3.Fast Concept Binding

1.Rapid Task Adaptation

图 2 Rapid Task Adaptation结果

测试在image-caption上训练的模型在VQA数据集上的表现并设置了多个对照模型。Frozen scratch表示语言模型是随机初始化的,Frozen finetuned 表示语言模型使用预训练权重,Frozen train-blind 控制视觉编码器的输入始终是黑色图像。可以发现Frozen随着提供示例(n)的增多,效果有所提升。

2.Encyclopedic Knowledge

图 3 Encyclopedic Knowledge结果

此部分测试了Frozen在需要外部知识的OKVQA数据集上的表现,Frozen同样在Image-caption上进行训练。同时比较了语言模型大小对结果的影响(Frozen 400mLM)。

3.Fast Concept Binding

图 4 Fast Concept Binding输入示例

如图4所示,将blicket和dax等无实际意义的词与某一事物类别进行绑定,同时给出几个示例,测试模型是否具有概念绑定的能力。

图 5 概念数等于2时的结果

图 6 概念数等于5时的结果

作者还进一步测试了概念绑定与外部知识结合的场景下Frozen的效果。

随着任务难度增加,Frozen的效果也有所下降,但提供的示例数增加的时候,Frozen能从示例中提取到相关知识,指导结果的生成。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models相关推荐

  1. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  2. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  3. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  4. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

  5. 论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码

    本文内容源自往期「论文浅尝」,由 PaperWeekly 精选并重新排版整理,感谢 PaperWeekly. ISWC 2018 ■ 链接 | http://www.paperweekly.site/ ...

  6. ###好好好#######论文浅尝 | 基于图注意力的常识对话生成

    论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...

  7. 论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...

    转载公众号 | 浙大KG 论文题目:Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Mode ...

  8. 论文浅尝 | ICLR 2020 - 一文全览知识图谱研究

    本文转载自公众号: AI科技评论 作者 | Michael Galkin 编译 | 贾伟 ICLR 2020 正在进行,但总结笔记却相继出炉.我们曾对 ICLR 2020 上的趋势进行介绍,本文考虑的 ...

  9. 论文浅尝 |「知识表示学习」专题论文推荐

    本文转载自公众号:PaperWeekly. 本期论文清单来自清华大学博士生韩旭和北师大本科生曹书林,涵盖了近年知识表示学习方向的重要论文. [ 综述类 ] ■ 论文 | Representation ...

最新文章

  1. python【蓝桥杯vip练习题库】BASIC-26报时助手
  2. 均值滤波java_均值滤波,中值滤波,最大最小值滤波
  3. Hive环境的安装部署(完美安装)(集群内或集群外都适用)(含卸载自带mysql安装指定版本)...
  4. libsvm中tools(easy.py,subset.py,grid.py,checkdata.py)的使用
  5. 一个有关Update类型的存储过程的问题
  6. PHP生成各种验证码和Ajax验证
  7. icpc网络赛第二场K Meal
  8. 从 Go 语言一个文件描述符错误讲起
  9. 科学网—语音识别技术发展史
  10. 长虹声纹识别技术推动家电产业向高阶形态发展
  11. jsp action java_jsp中Action使用session方法实例分析
  12. 《编写可维护的JavaScript》——JavaScript编码规范(七)
  13. 【python】入门oj
  14. oppoa79支持手机html,oppo a79驱动
  15. 程序人生:程序员如何和老板谈升职加薪
  16. 美团点评数据平台融合实践
  17. OceanBase 社区版 ODC 功能解读
  18. hdu 1548 A strange lift (BFS)
  19. 华为服务器gpu卡型号,GPU运算服务器推荐
  20. android银行卡绑定,华为huawei pay怎么绑定银行卡 绑卡方法教程

热门文章

  1. oracle 重建 sys密码文件
  2. 二元查找树的后序遍历结果
  3. C++中的explicit关键字用法
  4. 一个风骚的C语言操作
  5. 安卓9.0Sensor框架
  6. Linux io内存存在的意义~
  7. 成功驱动5150用HT68F30
  8. mysql报错error2002_mysql中异常错误ERROR:2002的解决方法分享
  9. smzdm 扫地机器人_堪称米家最值!米家系列扫地机器人选购须知
  10. 二十一、PHP框架Laravel学习笔记——模型的访问器和修改器