清华刘知远提出CPT:基于预训练视觉-语言模型的跨模态Prompt-Tuning
每天给你送来NLP技术干货!
论文:CPT:Colorful Prompt Tuning for Pre-Training Vision-Language Models
状态:Work in Progress
单位:清华大学、新加坡国立大学
链接:https://arxiv.org/pdf/2109.11797.pdf
提取摘要
预训练的视觉语言模型 (VL-PTMs) 在将自然语言融入图像数据中显示出有前景的能力,促进了各种跨模态任务。
然而,作者注意到模型pre-training和finetune的客观形式之间存在显着差距,导致需要大量标记数据来刺激 VL-PTMs 对下游任务的视觉基础能力。
为了应对这一挑战,本文提出了跨模态提示调优Cross-modal Prompt Tuning(CPT,或者,彩色-Color提示调优),这是一种用于finetune VL-PTMs 的新范式,它在图像和文本中使用基于颜色的共同参照标记重新构建了视觉定位问题,使之成为一个填空问题,最大限度地缩小差距。
通过这种方式,本文的Prompt-Tuning方法可以让 VL-PTMs 在少样本甚至零样本的强大的视觉预测能力。
综合实验结果表明,Prompt-Tuning的 VL-PTMs 大大优于 finetune 的方法(例如,在 RefCOCO 评估中,一次平均提高 17.3% 准确度,one shot下平均相对标准偏差降低73.8%)。
数据和代码会在之后公开,小伙伴们不要急~
方法介绍
背景:该任务为Visual Grounding视觉定位问题,通过一个给定的expression来定位在图像中的位置。
Pre-training和fine-tuning
比如有一张识别好的图片和下面的文字:
普通使用MLM(masked language modeling)的预训练模型的到VL-PTMs方法为:
就是使用[mask]机制来预测被被掩盖的token。
而finetune的话,就是使用传统的[CLS]来迁就下游的任务,比如做二分类:
而使用被大规模数据预训练的模型通过[CLS]来迁就下游任务,其实并不可解释,而反过来让下游带着任务来到预训练模型的[mask]战场上,才能更能发挥其作用呀。
CPT: Cross-model Prompt Tuning
CPT方法首先将图片用不同颜色来区分不同的实体模块:
其次将Query Text插入到color-based的模板(eg. is in [mask] color)里:
最后在[mask]上预测对应的该是哪个颜色即可,语义上非常行得通。
模型公式
普通Finetune for VL-PLMs
首先从图片 I 中通过目标检测工具,检测出一系列的region:
最终这些被选出来的region和Query Text(w)将被放入:
其中[IMG]、[CLS]和[SEP]为特殊token。
其中图片regions的representation通过视觉的encoder获得,而文本的就是lookup即可,最后通过预训练模型VL-PLMs会得到:
最终使用隐层finetune做分类即可。
但是,finetuned VL-PLMs需要大量的标注数据来提高视觉定位的效果,这个也是一个弊端吧。
Cross-Modal Prompt Tuning - CPT
上面说过了,CPT需要两个部分:
视觉子prompt
文本子prompt
视觉子prompt,目的是为了区分每一个region通过可分辨的标记,比如颜色,比如RGB (255, 0, 0)表示red,RGB和text要对应起来。
这里要注意的是,这个子prompt是直接加在原图片上的,所以既没有改变模型结果,又没有改变参数。
文本子prompt,目的就是在图片和Query Text之间建立一个链接,这里使用的模板为:
然后,VL-PTMs模型通过这样的提示(prompt)来决定哪个颜色的region填在这个空里最恰当:
实验
和finetune相比,CPT在zero-shot和few-shot下,性能可以说是爆表,巨额提升。在全量数据下,也能达到最佳值或者接近最佳值:
CPT在其他视觉任务上的应用
实体检测
谓元分类
场景图分类
总之,Prompt方法就是通过模板重新定义了任务,让模型更具有解释性,本篇文章第一次将Prompt用在了Vision-Language上,未来还会有很大的研究动向,感兴趣的小伙伴可以细读原文。
一起交流
想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定要备注信息才能通过)
- END -
搜索、推荐、广告中的曝光偏差问题
2021-10-12
Don't stop pretraining,继续预训练!
2021-10-10
GPT Plus Money!B O O M
2021-10-09
召回 粗排 精排,如何各司其职?
2021-10-06
清华刘知远提出CPT:基于预训练视觉-语言模型的跨模态Prompt-Tuning相关推荐
- 【预训练视觉-语言模型文献阅读】VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020)
[预训练视觉-语言模型文献阅读]VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS(ICLR 2020) 文章目录 ...
- 【预训练视觉-语言模型文献阅读文献阅读】最新BERT模型——UNITER: UNiversal Image-TExt Representation Learning
[预训练视觉-语言模型文献阅读文献阅读]最新BERT模型--UNITER: UNiversal Image-TExt Representation Learning 文章目录 [预训练视觉-语言模型文 ...
- 清华刘知远组:让预训练语言模型持续高效吸收新领域知识 | ACL 2022
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 论文标题: ELLE: Efficient Lifelong Pre ...
- ICLR 2020| VL-BERT:预训练视觉-语言模型
今天介绍中国科学技术大学和微软亚洲研究院朱西洲老师团队在ICLR2020的论文,该研究提出了一种新的图形神经网络的几何聚合方式,其核心思想是:在bert的基础上为视觉-语言相关任务做预训练. VL-B ...
- 基于预训练语言模型的检索- 匹配式知识图谱问答系统
基于预训练语言模型的检索- 匹配式知识图谱问答系统 张鸿志 , 李如寐,王思睿,黄江华 美团, 北京市朝阳区 100020 {zhanghongzhi03,lirumei,wangsirui,huan ...
- NeurIPS 2022 | 清华提出P2P:基于预训练图像模型的点到像素提示学习方法
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 在这里和大家分享一下我们被NeurIPS 2022录用的点云理解工 ...
- 阿里达摩院 | 基于预训练语言模型的行业搜索
作者|谢朋峻 阿里巴巴达摩院 整理|DataFunTalk 大家好,这里是NewBeeNLP.本文将分享行业搜索的相关技术和应用,主要包括三大部分: 行业搜索的背景 相关技术研究 行业搜索应用 01 ...
- 【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》
[1] 参考论文信息 论文名称:<基于预训练语言模型的案件要素识别方法> 发布期刊:<中文信息学报> 期刊信息:CSCD 论文写作分析摘要:本文非常典型.首先网 ...
- 微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法
作者丨张浩宇 学校丨国防科技大学计算机学院 研究方向丨自然语言生成.知识图谱问答 本文解读的是一篇由国防科技大学与微软亚洲研究院共同完成的工作,文中提出一种基于预训练模型的自然语言生成方法. 摘要 在 ...
最新文章
- JVM:查看java内存情况命令
- hdu 4676 Sum Of Gcd 莫队+phi反演
- 模拟浏览器自动化测试工具Selenium之三页面窗口切换开发篇
- 图像处理——基于深度学习HED实现目标边缘检测
- DCMTK:测试DcmSCPPool类,包括DcmSCP和DcmSCU交互
- jquery css 定义背景不重复
- 解决Springboot文件上传报错,java.io.FileNotFoundException: D:\System\Temp\tomcat.819...00.tmp (系统找不到指定的文件。)
- 打开文件对话框的演练 c# 1614821885
- makefile工作笔记0001---认识使用makefile
- 用计算机语言拜年,鸡年大吉!22种编程语言大拜年
- 【Tensorflow】相关面试题整理(转)
- canvas.toDataURL()报错
- 【视频】LSTM神经网络架构和原理及其在Python中的预测应用|数据分享
- GitHub 漫游指南
- Salesforce 解决chatter简档删除不掉记录类型问题
- pthread_cond_destroy死锁卡住问题处理记录
- 【第二章 语言及文法】形式语言与自动机第二章个人总结复习笔记分享!(含文件、持续更新...)
- c语言:(指针)实现输入三个整数从小到大排序
- 论文写作---word单独设置页眉页脚
- linux 的 ip 命令 和 ifconfig 命令
热门文章
- 汇编语言逻辑“或”指令与应用示例:OR (Logical Inclusive OR)和 XOR (Logical Exclusive OR)
- 无法访问计算机请检查名称的拼写,windows无法访问 请检查名称的拼写… 错误代码:0x80004005和0x80070035和 0x800704cf...
- springBoot员工管理系统
- java选择题《每日一练》
- idea2023闪退原因
- 通达OA发送内部邮件
- 我的世界网易服务器修改世界,我的世界:1.16改变两个版本更新频率?网易版异常乱封大批账号?...
- 【不忘初心】Windows11_22000.593_X64_无更新[深度精简版][1.37G](2022.4.2)
- 抛弃了wordpress
- 如何去除电脑桌面软件的图标箭头符号,以及“快捷方式字样”?