明敏 发自 凹非寺
量子位 | 公众号 QbitAI

现在,丢给AI一张图,它不仅能看图说话,还能应对人们提出的刁钻问题了。

比如,给它看一张经典卷福照。

它便能回答出:

一个穿着西服、正在比划手势的男人。

那么图中男人的眼睛是什么颜色的呢?

蓝色。

我定睛一看,还真是如此!

这就是视觉-语言领域的新成果:BLIP (Bootstrapping Language-Image Pre-training)。

它突破性地将过去往往只能单独执行的视觉-文本生成视觉-文本理解两种任务整合在了一起,让AI可以在看图说话和视觉问答两种模式来回切换。

并且在各种任务上的表现也都优于过去SOTA方法,VQA准确率超过78%,逼近人类基准线(80.83%)。

话不多说,就让我们来试玩一下,看看这个模型究竟有多厉害。

Demo试玩

BLIP可以提供两种功能。

第一是描述图片的内容,第二是回答有关图片的提问。

上传好图片后,便可从图片下方的模式中任选一种进行试玩。

首先我们来看看它看图说话的水平如何。

上传了一张有小孩、猫、狗多种元素的图片后,模型输出的内容为:

一个小男孩和一只猫、一只狗一起趴在地上。

再提问试试看:

图中有吗?

BLIP:NO.

可以看到,BLIP对图片的理解很到位,那么再多换几张图片呢?

当我们上传蒙娜丽莎的画像后,模型很轻松地辨别出来了这是一张女人的画像,并非是一张照片。

即便是上传一张恶搞的奥特曼图片,也没有难倒BLIP,并且还给出了一个一本正经的回答:

一个男人端着一个插有蜡烛的蛋糕。

甚至问它:蛋糕是在男人的左手上还是右手上?BLIP都能给出正确的答案:

右手。

这波操作属实是6到我了。

那么它背后的原理是什么呢?我们一起来看。

学习带噪图像-文本对

BLIP这次主要做的工作有两方面。

第一,它使用了一个多任务模型(MED),将多种任务预训练整合在了一起。

从框架图中看到,MED主要包括3个部分:

单峰编码器,可以用图像-文本对比损失(ITC)训练,让视觉和文本表征对齐。

基于图像的文本编码器,可以用传统的交叉注意层来模拟视觉-语言信息的转换,并通过图像-文本匹配损失(ITM)来进行训练,从而来区分正、负图像-文本对。

基于图像的文本解码器,可以将双向自注意力层转换为因果自注意力层,并且与编码器共享同一个交叉注意力层和前馈网络。解码器通过语言建模训练(LM)来输出文字标注。

由此,该模型可以执行图像-文本对比、图像-文本匹配和图像语言生成任务。

第二方面,研究人员提出了一种新型的数据自举法(CapFilt)。它可以让模型从带有噪声的图像-文本对中学习。

CapFilt中主要包含标注器 (captioner)和过滤器 (filter)两个部分。

其中,标注器用来生成描述图像的文本,过滤器将带有噪音的结果排除掉。

比如下面的几个例子,就是过滤器将错误的答案驳回。

研究表明,标注器列出的文本越多样化,最后的效果越好。

与此前取得SOTA的方法相比,BLIP在图像-文本检索任务上recall@1平均提升了2.7%;在看图生成文字上,CIDEr提升2.8%,视觉问答方面分数提升了1.6%。

通讯作者为清华校友

此项研究的通讯作者为许主洪 (Steven C.H. Hoi)。

他目前也任职于Salesforce亚洲研究院。此前为新加坡国立大学信息系统学院教授。

2002年,许主洪在清华大学计算机系获得学士学位。于2004年、2006年先后在香港大学计算机科学与工程系获得硕士、博士学位。

2019年当选IEEE Fellow。主要研究领域有计算机视觉、NLP、深度学习等。

第一作者为Junnan Li。

他目前是Salesforce亚洲研究院高级研究科学家。

本科毕业于香港大学,博士毕业于新加坡国立大学。

研究领域很广泛,包括自我监督学习、半监督学习、弱监督学习、迁移学习、视觉-语言。

其余两位作者也均为华人,分别是Dongxu Li和Caiming Xiong。

论文地址:
https://arxiv.org/abs/2201.12086

试玩地址:
https://huggingface.co/spaces/akhaliq/BLIP

GitHub地址:
https://github.com/salesforce/BLIP

一个模型搞定图像标注、读图问答两件事,VQA准确率逼近人类水平 | Demo可玩...相关推荐

  1. Meta AI推出“杂食者”:一个模型搞定图像、视频和3D数据三大分类任务,性能还不输独立模型...

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 最近,Meta AI推出了这样一个"杂食者" (Omnivore)模型,可以对不同视觉模态的数据进行分类,包括图像.视频和3D ...

  2. AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定

    来源丨机器之心 作者丨陈萍.小舟 AI会是未来的「造物者」吗? 近来,视觉合成任务备受关注.几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了. 相 ...

  3. 一个模型搞定十大自然语言任务:NLP全能选手来了 | 论文+代码

    夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 所谓自然语言处理(NLP),其实涵盖了很多方面.比如有已经无处不在的机器翻译,各大公司总在冲击排行榜的机器问答,也有普通人不太熟悉的情感分析 ...

  4. NLP通用模型诞生?一个模型搞定十大自然语言常见任务

    翻译 | 于之涵 编辑 | Leo 出品 | AI科技大本营 (公众号ID:rgznai100) AI科技大本营按:目前的NLP领域有一个问题:即使是再厉害的算法也只能针对特定的任务,比如适用于机器翻 ...

  5. NLP通用模型decaNLP诞生,一个模型搞定十大自然语言常见任务

    然而近日,Salesforce发布了一项新的研究成果:decaNLP--一个可以同时处理机器翻译.问答.摘要.文本分类.情感分析等十项自然语言任务的通用模型. Salesforce的首席科学家Rich ...

  6. 一个模型搞定多个CTR业务!阿里STAR网络介绍(附代码实现)

    今天为大家带来阿里巴巴2021年的一篇文章:<One Model to Serve All: Star Topology Adaptive Recommender for Multi-Domai ...

  7. 首次超越人类!“读图会意”这件事,AI比你眼睛更毒辣 | 达摩院

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在超越人类这件事上,AI 又拿下一分. 就在最近,国际权威机器视觉问答榜单VQA Leaderboard,更新了一项数据: AI在" ...

  8. python利器app怎么查文献-科研人必备:一个工具搞定文献查阅、数据分析、模型搭建...

    原标题:科研人必备:一个工具搞定文献查阅.数据分析.模型搭建 写论文有多难?这首诗形容得好: 进入学校先选题,踌躇满志万人敌:发现前辈都做过,满脸懵逼加惊奇. 终于找到大空白,我真是个小天才:左试右试 ...

  9. 通用人工智能最新突破!一个Transformer搞定一切

    Datawhale干货 编辑:梦晨 鱼羊,来源:量子位 通用人工智能,还得看DeepMind. 这回,只一个模型,使用相同的权重,不仅把看家本领雅达利游戏玩得飞起. 和人类聊聊天.看图写话也不在话下. ...

最新文章

  1. C#_Math函数总结
  2. 浅析网站首页设计需注意的要点
  3. 比较全面的MySQL优化参考
  4. 《微软的梦工场》 笔记(1)
  5. 2018年暑假第四次周赛-图论部分题解
  6. 2017西安交大ACM小学期 美妙音乐[差分KMP匹配]
  7. 【实践】GPU在外卖场景推荐系统精排模型预估中的应用实践
  8. scratch少儿编程与游戏:丛林狩猎
  9. After Effects CC 2019 for Mac(AE中文直装版)
  10. Java的中文转换拼音、五笔简码
  11. 定点街访辅助工具准备
  12. 盘点电视剧中的广告植入
  13. PDF Expert for Mac 2.5.5 中文版 — PDF编辑工具
  14. win7电脑变身WiFi热点
  15. UE4 材质笔记之水洼(贴花)
  16. 深圳赛意信息 怎么样_深圳自动瓶坯检查机怎么样
  17. 好用不贵的职场礼物——讯飞智能录音笔SR302
  18. docker学习至docker-compose
  19. 图像质量评估(2) -- 图像质量相关参数:分辨率
  20. 计算机屏幕关机按钮没有了怎么办,电脑每次关机图标不见了怎么办啊

热门文章

  1. 解释Python的‘__enter __‘和‘__exit__‘
  2. 在setInterval函数中传递参数
  3. 什么是未定义的引用/未解决的外部符号错误,如何解决?
  4. 使字符串的首字母大写(具有最佳性能)
  5. 机器人操作系统来到Windows
  6. POJ 1597 Function Run Fun
  7. [转] 2016前端开发技术巡礼
  8. linux的read命令
  9. ThinkPhp学习12
  10. VS2010 ,工程文件减肥