如何评价OpenAI最新的工作CLIP:连接文本和图像,zero shot效果堪比ResNet50?
链接:https://www.zhihu.com/question/438649654
编辑:深度学习与计算机视觉
声明:仅做学术分享,侵删
作者:谢凌曦
https://www.zhihu.com/question/438649654/answer/1670115915
先说看法:多模态是趋势没错,可CLIP只是迈出了非常简单的第一步。
只要简单地扫过文章,就会发现方法简单地令人发指——熟悉深度学习编程的人,一个上午大概就能复现出所有代码。而整篇文章最大的复现难点,显然是OpenAI自行收集的400M文本图像配对的数据集。
如果要对比这个方法和传统图像分类方法,那么优缺点都是比较明显的:
相比于传统图像分类方法的优势。这是显而易见的:每张图像的标签不再是一个名词,而是一个句子,因此以往被强行分成同类的图像,就有了“无限细粒度”的标签。例如ImageNet给图片打的标签是“金毛寻回犬”,而这种配对的例子,就可以学习“金毛寻回犬”身处不同环境、在做不同事情的细微差别。
相比于传统图像分类方法的劣势。主要还是文本和图像的配对关联性不够强。这是为什么作者反复强调要收集巨大的数据集,因为他们必须通过大数据的方式来压制噪声。从这个观点出发,我们可以看出些许未来的趋势(见下面第2和第3点)。
最后再说一些扩展的观点:
1.千万不要被它zero-shot的能力吓到,这不是真正的zero-shot!在400M个文本图像配对的训练中,模型肯定看到了大量打着相关文本标签的图像,而且图像的domain比ImageNet要广得多——这也是为什么方法能够在一些高级场景(如clipart)轻松超越ImageNet预训练模型。但是要说这种方法碾压了有监督方法,就有点震惊体哗众取宠的意味了。
2.另一个耐人寻味的地方,是方法同时训练了图像和文本特征(感谢评论区@llll的提醒,一开始我看成只训练图像了)。我直觉地认为文本预训练特征比视觉预训练特征更可靠,但是作者却放弃了OpenAI祖传的超大的文本预训练模型,令人略感意外。尤其是,NLP的预训练模型体量远超视觉预训练模型,所以固定文本模型,也许是更实用的方法?
3.最让我感兴趣的问题,是图像和文本之间的交互方式。直接用文本的encoding结果做为图像的监督信号,显然噪声太大了;能否借鉴captioning等方向的做法,允许图像和文本在encoding过程中多次交互,从而提升效果?当然,这里还是涉及到语言模型太大,无法高效训练。不过,OpenAI也可以选择暴力出奇迹,直接从头训练大规模的跨模态预训练模型。只是这样做的话,400M的数据集可能就太小了。
4.再往深了说,NLP的预训练之所以能做得好,关键是pretext任务比较好。相比起来,CV还在苦苦寻找合适的pretext任务。当前我对跨模态的最大预期,就是能够在NLP的辅助下,定义CV的pretext任务。CLIP迈出了第一步,前面的路还长得很。
总之,CLIP这个工作,技术突破不大,效果还算惊艳。作为占坑之作,将来应该会成为跨模态的一个重要baseline。
作者:刘一凡
https://www.zhihu.com/question/438649654/answer/1676282272
1.首先是最大的VIT-L/14的zero-shot的精度到了76.2,也就是提问里的“zero shot效果堪比ResNet50”,VIT-L/14的参数量大概是ResNet50的几十倍了。
2.跑了一下inference code,从人的感觉上来看,还是很惊艳的。吃饭的时候随手拍的西部马华的牛肉面,臊子面,酸菜鱼面 做zero-shot分类竟然都识别对了,下图中使用三种描述:
["a bowl of beef noodles", "a bowl of simmered noodles", "a bowl of sauerkraut fish noodles"]
分别输出三幅图片在三种描述下的概率。都分对了,400 million数据还是强
作者:陀飞轮
https://www.zhihu.com/question/438649654/answer/1670144224
clip感觉像是把图像的高维空间映射到文本的高维空间上,但是文本的空间纬度会比图像的空间维度要低的多,文本信息比起图片信息噪声少,语义解耦更加彻底一些,相当于拿图片向量去跟文本向量进行聚类,比起单纯图片的对比学习,聚类方向性更加明确
text encoding类似于空间锚点,给什么锚点,图像就往设定的方向聚类,感觉是更复杂的图像级别的标label方式,这种复杂的标label方式可以把text的高维空间表达的更加复杂,图片可以更加细致的分布到合适区域
作者:kai.han
https://www.zhihu.com/question/438649654/answer/1670526162
技术上没有特别新的地方,能把这个setting做work做惊艳也是人才(2012年AlexNet之前也没人把CNN做到那么好)!意义在于再一次证明了大数据的威力。
这篇论文用了400M的图像文本对,联想到谷歌的JFT300M图像标注数据,注意这些数据都是未公开的,整个CV圈怎么越来越朝着医疗图像一样发展了?
还记得这次深度学习的兴起,一个大功臣就是开放的ImageNet数据集。希望有越来越多的大型数据集公开,共襄学术盛举,为了科技的繁荣,为了社会的进步!
另一方面,我们还是得寄希望于无监督学习的发展,早日赶超标注数据的效果,降维打击,这样我们就可以解放数据标注员了
作者:匿名用户
https://www.zhihu.com/question/438649654/answer/1669795003
通过对比学习完成了图像语义和文本语义的registration,本质上就是以文本语义为模板(因为文本语义是明确的,NLP的语义嵌入完成的已经比较好了,而图像的语义还不行),协助完成图像语义级别的解耦表示。
这个工作其实没有提供理论层面的新的认知,是在已有认知的方向上进行的验证性工作。我期待看到的,其实是能更新我们对于DL系统认知的工作。
我现在能想到的一个方向是,是否可以通过图像和视频来构造出一套语言,就像人类通过视觉信息构造出语言系统一样。这当然首先要完成对视觉信息的解耦表示,需要不依赖文本语义信息的监督。理论上说这是完全可能的,因为人类大脑就是完成了这个任务,有无可能我们也可以由算法构建一套新的‘自然语言’?这是个有趣的问题。这套语言和我们现在的人类语言会存在对应关系么?有无可能会出现多套没有明确对应关系的语言系统?我觉得完全有这个可能。
作者:黄挂
https://www.zhihu.com/question/438649654/answer/1674973615
大家都提到400m的数据集是关键 但我还想再挑明一点是,这400m的集的构造方式,paper里简单说了一句,是用wikipedia里50万个词条每个词条2万条结果组成的。这个2万才是关键。一个实体如果有两万张图片可供学习,即使可能有噪音也能学到泛化爆表吧。然后imagnet的1000个类大概率会落在这50个词条里,这就是zero shot效果好的本质原因。想想jmagenet一共128万条数据,1000个类,匀下来一个类也才1280张。
☆ END ☆
如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。
↓扫描二维码添加小编↓
如何评价OpenAI最新的工作CLIP:连接文本和图像,zero shot效果堪比ResNet50?相关推荐
- OpenAI又放大招:连接文本与图像的CLIP,在ImageNet上效果媲美ResNet50
2020年,通用模型产生了经济价值,特别是GPT-3,它的出现证明了大型语言模型具有惊人的语言能力,并且在执行其他任务方面也毫不逊色. 2021年,OpenAI 联合创始人 Ilya Sutskeve ...
- OpenAI打破文本和图像次元壁,提出基于对比学习的多模态预训练模型CLIP
OpenAI 打破了自然语言与视觉的次元壁,推出了一个连接文本与图像的神经网络模型CLIP. 相关资料 CLIP原论文:Radford et al. Learning transferable vis ...
- 引燃AI社区,不用跨界也能从文本生成图像,OpenAI新模型打破自然语言与视觉次元壁...
视学算法报道 作者:魔王.杜伟.蛋酱 艺术创作的事,以后人类只要动手打几个字,其他的交给 AI 就行了. 自然语言与视觉的次元壁正在被打破.这不,OpenAI 最近连发大招,提出两个连接文本与图像的神 ...
- 大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!
作者 | 耳洞打三金 大家好我是三金,相信大家都还记得上周报道的OpenAI新出的名叫DALL.E的120亿参数神经网络模型,它可以魔法一般按照自然语言文字描述直接生成对应图片! 效果如下所示: 文本 ...
- 首次发现!AI脑回路演化向人类更进一步,OpenAI最新研究引热议,有学者评价:太吓人了...
浩楠 晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 两个月前轰动网络的AI设计大师CLIP,刚刚被OpenAI"扒开"了脑子. 没想到,这个性能强大的AI竟和人类思 ...
- 如何评价一个产品经理工作做的好坏?
有很多小伙伴问我,如何给产品经理定KPI?或者说如何考核一个产品经理的工作是ok的?这个问题确实造成很多产品经理的困惑,产品经理的工作目标是满足用户需求,对用户体验的优化:运营的工作是以KPI为导向, ...
- 如何评价测试人员的工作绩效?
如何评价测试人员的工作绩效? Author:袁琳 MSN:testwin@sohu.com 随着国内软件测试行业的不断发展,软件测试工作更加深入.规范.其中对测试人员的绩效考核也越来越重要.目前,很多 ...
- 感恩工作平台心得体会_最新感恩工作心得体会 (范本)
最新感恩工作心得体会 ( 范本 ) [格式及要点] I .标题 心得体会的标题可以采用以下几种形式: 在 XX 活动 ( 或 XX 工作 ) 中的心得体会 关于 XX 活动 ( 或 XX 工作 ) 心 ...
- 缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
视学算法报道 编辑:陈萍.小舟 模型的参数规模并不需要那么大. 从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向.现在 ...
最新文章
- 大数据WEB阶段(八)Tomcat服务器安装与详解、HTTP协议详解
- [JS]string.substr(start,length)str.slice(begin, end)
- 使用CancellationToken——而不是Thread.Sleep
- 代码统计工具有哪几种_DevOps:优秀代码分析工具的自我修养
- C#数字日期转成中文日期
- 人工智能时代,我们需要什么样的芯片?| 码书
- 告别ASP.NET操作EXCEL的烦恼(总结篇)
- Jquery Cookbook摘要之使用上下文参数
- mysql中的leading用法_MySQL 函数笔记
- paip输入法编程之生活用高频字,以及汉字分级
- 数据同步工具—Sqoop
- 实现三级导航demo
- 996工作制,还要抽时间提升自己吗?
- linux进入桌面后CPU狂转,笔记本风扇狂转+CPU调节问题
- java 根据条件从List中筛选出符合条件的集合
- 如何解决Mac电脑在启动时出现空白屏幕的情况?
- 全国大江大河实时水情数据下载
- css 实现心形加载动画
- 练习6:多表关联查询、嵌套子查询
- mysql怎么分组计算逾期率_Tableau分享第一篇:如何计算分组留存率(Cohort Analysis)!...