用多模态信息做 prompt,解锁 GPT 新玩法
文 | 子龙
编 | 小轶
自多模态大火以来,井喷式地出现了许多工作,通过改造预训练语言模型,用图像信息来增强语义信息,但主要集中在几个 NLU 任务上,在 NLG 上的研究比较少。
今天要介绍的这篇 paper Multimodal Conditionality for Natural Language Generation 研究的任务场景则是以多模态信息作为条件做 conditional 的 NLG任务。这种任务设置有许多实际的应用场景。比如,生成商品介绍文案时,仅仅基于该商品的文字标题是不够的。如果能结合商品的图片,必然能够得到更贴切的文案。
这篇工作的模型基于 GPT2,而多模态信息则是以一种类似 prompt 的方式来使用。虽然方法比较简单直观,但具备一定通用性,未来或许有进一步挖掘的可能。
论文题目:
Multimodal Conditionality for Natural Language Generation
论文链接:
https://arxiv.org/pdf/2109.01229.pdf
原理
作者的想法其实十分简单,一切语言模型都是为了衡量一段文字序列的概率,即:
而如果引入了多模态的输入,就相当于在生成时多了一个条件,即条件概率为:
其中为多模态输入序列。
以文中生成商品文案的运用场景为例:
这里的Product Title和Product Images就是作为生成Product Description时的“条件”。
那么如何将多模态序列引入到自然语言生成模型呢?
本文使用了一个十分直观的方法,称作MANTIS,将作为条件的多模态序列作为前缀放置到decoder输入序列的前面,进而中解码过程中分享多模态信息。其中图片输入借助ResNet-152,将最后一层输出用线性层映射到语言模型同一个空间中。而作为条件的文本输入,即这里的product title,和生成序列一同进行编码。
效果
数据集采用FACAD,提供了商品的标题和图片,目标是生成产品描述,效果如下:
文中提出的模型在所有指标中都取得了最优结果,相比于baseline,将BLEU4提升了0.8,CIDEr提升了7.2,METEOR提升了0.8,ROUGE-L提升了1.0。同时,由于衡量生成文本质量具有主观性,作者也进行了人工评分,结果表明MANTIS依然取得了最优结果。
从生成效果来看,生成的描述成功地结合了图片信息,使得描述更加准确,而非笼统的介绍。
总结
这篇文章方法十分直观,但是结合最近火热的 Prompt,似乎又有了更多的启发。同样是生成,同样是加前缀,似乎给定条件的生成就是加上编码好的前缀?那么多模态未来能不能成为一种新的prompt呢?作者认为他们的模型可以借助各种不同的多模态条件生成,然而不得不说本文的方法对模态融合的部分做的马虎了些。本文只是单纯借助解码器进行融合,并没有在编码阶段就分享跨模态的信息。
萌屋作者:子龙(Ryan)
本科毕业于北大计算机系,曾混迹于商汤和MSRA,现在是宅在UCSD(Social Dead)的在读PhD,主要关注多模态中的NLP和data mining,也在探索更多有意思的Topic,原本只是贵公众号的吃瓜群众,被各种有意思的推送吸引就上了贼船,希望借此沾沾小屋的灵气,paper++,早日成为有猫的程序员!
作品推荐:
1.别再搞纯文本了!多模文档理解更被时代需要!
2.Transformer哪家强?Google爸爸辨优良!
3.预训练语言真的是世界模型?
后台回复关键词【入群】
加入卖萌屋NLP/IR/Rec与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各大顶会论文集!
用多模态信息做 prompt,解锁 GPT 新玩法相关推荐
- excel查重_发票查重工具,不止查重这么简单,你还可以体验这些新玩法
电子发票报销是目前所有行业的会计都要面对的一项重要工作,而目前电子发票报销的普遍方式都是打印报销,这样一来,会计就不得不面对企业员工将电子发票重复打印报销和篡改报销的风险,而其中,尤其以重复打印报销是 ...
- 微信支付推出“中秋花灯会”新玩法 点亮花灯享大额提现免费券
9月19日消息,微信支付正式上线"中秋花灯会"活动,解锁节日新玩法.用户打开"微信支付有优惠"小程序即可进入专区参加"中秋花灯会"活动,点亮 ...
- 通过配置环境变量解锁win+r新玩法
转载原文:通过配置环境变量解锁win+r新玩法 作者:是你我不想逃 转载已获取作者授权 文章目录 什么是win+r 常用的快捷键命令都有哪些 配置环境变量解锁win+r新玩法 什么是win+r Win ...
- 活动回顾 谷露招聘沙龙VOL.6 解锁校招人才获取新玩法
3月22日 谷露招聘沙龙VOL.6 <2019校招季,解锁人才获取新玩法> 在虹口办伴共享空间成功举办. 在连续的阴雨绵绵后,上海终于迎来了大晴天. 本次沙龙,谷露特别邀请到K12在线教育 ...
- 专家周 | 电商牛人的新玩法,寺库如何做奢侈品电商?视频社交电商如何运作的?...
本周大咖分享会第三期,邀请了寺库产品总监周志华先生和呼朋科技创世人李毅秋先生两位嘉宾.他们都有着任职于国内外知名企业丰富的职业经历,对电商怀着着自己独特的见解和感悟.8月2日,PMCAFF将携手脉脉与 ...
- 小黄车凉了?1分钟带你解锁共享经济的3种新玩法
共享经济是如今国内最活跃的创新领域之一,国内共享经济的概念真正火起来并为大众所知还应该从OFO说起,随着共享单车的火爆,各种共享商品,如共享单车.共享汽车.共享充电宝.共享雨伞等如雨 ...
- 告别尬聊,解锁秀场+社交新玩法 (内含源码/Demo)
直播已成为用户的生活习惯之一 艾媒咨询数据显示:2021年直播用户规模达到6.35亿人,在线直播用户以年轻群体为主,24岁及以下用户占比49%,30岁以下用户接近8成. 众所周知,Z世代用户是一个社交 ...
- 《花雕学AI》23:中文调教ChatGPT的秘诀:体验测试与通用案例,解锁无限有趣玩法!
引言: 你有没有想过和一台智能机器人聊天?你有没有想过让一台智能机器人为你创作诗歌.故事或歌曲?你有没有想过让一台智能机器人陪你玩游戏.学习或社交?如果你的答案是肯定的,那么你一定会对ChatGPT感 ...
- 跟随弹幕停不下来?智慧文娱还有哪些新玩法
阿里妹导读:随着 5G 开启商用.机器智能愈发成熟,在技术发展的新阶段,我们在文娱的体验上将会有怎样的提升?本文将通过十个场景来分享技术革新下智慧文娱的新玩法. 文末福利:评论区留言送书. 一 修复 ...
最新文章
- python实现多个gui互相协作或这多个软件同时服务一个业务的方式
- 测试规范包括哪些_光学会自动化测试还不够?还差最后这一步!
- c#语法之lock 语句
- 值传递和引用传递的讲解
- 43. ExtJs控件属性配置详细
- 51Nod 1013 3的幂的和 快速幂 | 乘法逆元 | 递归求和公式
- unsafe jdk9_JDK 9清单:Project Jigsaw,sun.misc.Unsafe,G1,REPL等
- 带Spring Boot的GWT
- 【OpenCV 例程200篇】14. 图像与标量相加(cv2.add)
- Redis-集群监控之Redis monitor
- 加工生产调度(信息学奥赛一本通-T1425)
- ASP静态HTML(局部)生成类
- swift函数的用法,及其嵌套实例
- Perl 语言流行度处于历史最低点
- Incorrect string value: '\\xE6\\xBF\\x80\\xE5\\x85\\x89...' for column 'rukuName' at row 1 QMYSQL:
- 3000元台式电脑组装配置单2021 3000元组装电脑配置清单
- GEO数据库数据下载
- 递归回溯法求数独全部解
- 大数据知识框架体系总结梳理
- 词向量系列之One-Hot编码详解