如何评价OpenAI最新的工作CLIP：连接文本和图像，zero shot效果堪比ResNet50？

链接：https://www.zhihu.com/question/438649654

编辑：深度学习与计算机视觉

声明：仅做学术分享，侵删

作者：谢凌曦
https://www.zhihu.com/question/438649654/answer/1670115915

先说看法：多模态是趋势没错，可CLIP只是迈出了非常简单的第一步。

只要简单地扫过文章，就会发现方法简单地令人发指——熟悉深度学习编程的人，一个上午大概就能复现出所有代码。而整篇文章最大的复现难点，显然是OpenAI自行收集的400M文本图像配对的数据集。

如果要对比这个方法和传统图像分类方法，那么优缺点都是比较明显的：

相比于传统图像分类方法的优势。这是显而易见的：每张图像的标签不再是一个名词，而是一个句子，因此以往被强行分成同类的图像，就有了“无限细粒度”的标签。例如ImageNet给图片打的标签是“金毛寻回犬”，而这种配对的例子，就可以学习“金毛寻回犬”身处不同环境、在做不同事情的细微差别。
相比于传统图像分类方法的劣势。主要还是文本和图像的配对关联性不够强。这是为什么作者反复强调要收集巨大的数据集，因为他们必须通过大数据的方式来压制噪声。从这个观点出发，我们可以看出些许未来的趋势（见下面第2和第3点）。

最后再说一些扩展的观点：

1.千万不要被它zero-shot的能力吓到，这不是真正的zero-shot！在400M个文本图像配对的训练中，模型肯定看到了大量打着相关文本标签的图像，而且图像的domain比ImageNet要广得多——这也是为什么方法能够在一些高级场景（如clipart）轻松超越ImageNet预训练模型。但是要说这种方法碾压了有监督方法，就有点震惊体哗众取宠的意味了。

2.另一个耐人寻味的地方，是方法同时训练了图像和文本特征（感谢评论区@llll的提醒，一开始我看成只训练图像了）。我直觉地认为文本预训练特征比视觉预训练特征更可靠，但是作者却放弃了OpenAI祖传的超大的文本预训练模型，令人略感意外。尤其是，NLP的预训练模型体量远超视觉预训练模型，所以固定文本模型，也许是更实用的方法？

3.最让我感兴趣的问题，是图像和文本之间的交互方式。直接用文本的encoding结果做为图像的监督信号，显然噪声太大了；能否借鉴captioning等方向的做法，允许图像和文本在encoding过程中多次交互，从而提升效果？当然，这里还是涉及到语言模型太大，无法高效训练。不过，OpenAI也可以选择暴力出奇迹，直接从头训练大规模的跨模态预训练模型。只是这样做的话，400M的数据集可能就太小了。

4.再往深了说，NLP的预训练之所以能做得好，关键是pretext任务比较好。相比起来，CV还在苦苦寻找合适的pretext任务。当前我对跨模态的最大预期，就是能够在NLP的辅助下，定义CV的pretext任务。CLIP迈出了第一步，前面的路还长得很。

总之，CLIP这个工作，技术突破不大，效果还算惊艳。作为占坑之作，将来应该会成为跨模态的一个重要baseline。

作者：刘一凡
https://www.zhihu.com/question/438649654/answer/1676282272

1.首先是最大的VIT-L/14的zero-shot的精度到了76.2，也就是提问里的“zero shot效果堪比ResNet50”，VIT-L/14的参数量大概是ResNet50的几十倍了。

2.跑了一下inference code，从人的感觉上来看，还是很惊艳的。吃饭的时候随手拍的西部马华的牛肉面，臊子面，酸菜鱼面做zero-shot分类竟然都识别对了，下图中使用三种描述：

["a bowl of beef noodles", "a bowl of simmered noodles", "a bowl of sauerkraut fish noodles"]

分别输出三幅图片在三种描述下的概率。都分对了，400 million数据还是强

作者：陀飞轮
https://www.zhihu.com/question/438649654/answer/1670144224

clip感觉像是把图像的高维空间映射到文本的高维空间上，但是文本的空间纬度会比图像的空间维度要低的多，文本信息比起图片信息噪声少，语义解耦更加彻底一些，相当于拿图片向量去跟文本向量进行聚类，比起单纯图片的对比学习，聚类方向性更加明确

text encoding类似于空间锚点，给什么锚点，图像就往设定的方向聚类，感觉是更复杂的图像级别的标label方式，这种复杂的标label方式可以把text的高维空间表达的更加复杂，图片可以更加细致的分布到合适区域

作者：kai.han
https://www.zhihu.com/question/438649654/answer/1670526162

技术上没有特别新的地方，能把这个setting做work做惊艳也是人才（2012年AlexNet之前也没人把CNN做到那么好）！意义在于再一次证明了大数据的威力。

这篇论文用了400M的图像文本对，联想到谷歌的JFT300M图像标注数据，注意这些数据都是未公开的，整个CV圈怎么越来越朝着医疗图像一样发展了？

还记得这次深度学习的兴起，一个大功臣就是开放的ImageNet数据集。希望有越来越多的大型数据集公开，共襄学术盛举，为了科技的繁荣，为了社会的进步！

另一方面，我们还是得寄希望于无监督学习的发展，早日赶超标注数据的效果，降维打击，这样我们就可以解放数据标注员了

作者：匿名用户
https://www.zhihu.com/question/438649654/answer/1669795003

通过对比学习完成了图像语义和文本语义的registration，本质上就是以文本语义为模板（因为文本语义是明确的，NLP的语义嵌入完成的已经比较好了，而图像的语义还不行），协助完成图像语义级别的解耦表示。

这个工作其实没有提供理论层面的新的认知，是在已有认知的方向上进行的验证性工作。我期待看到的，其实是能更新我们对于DL系统认知的工作。

我现在能想到的一个方向是，是否可以通过图像和视频来构造出一套语言，就像人类通过视觉信息构造出语言系统一样。这当然首先要完成对视觉信息的解耦表示，需要不依赖文本语义信息的监督。理论上说这是完全可能的，因为人类大脑就是完成了这个任务，有无可能我们也可以由算法构建一套新的‘自然语言’？这是个有趣的问题。这套语言和我们现在的人类语言会存在对应关系么？有无可能会出现多套没有明确对应关系的语言系统？我觉得完全有这个可能。

作者：黄挂
https://www.zhihu.com/question/438649654/answer/1674973615

大家都提到400m的数据集是关键但我还想再挑明一点是，这400m的集的构造方式，paper里简单说了一句，是用wikipedia里50万个词条每个词条2万条结果组成的。这个2万才是关键。一个实体如果有两万张图片可供学习，即使可能有噪音也能学到泛化爆表吧。然后imagnet的1000个类大概率会落在这50个词条里，这就是zero shot效果好的本质原因。想想jmagenet一共128万条数据，1000个类，匀下来一个类也才1280张。

☆ END ☆

如果看到这里，说明你喜欢这篇文章，请转发、点赞。微信搜索「uncle_pn」，欢迎添加小编微信「 mthler」，每日朋友圈更新一篇高质量博文。

↓扫描二维码添加小编↓

如何评价OpenAI最新的工作CLIP：连接文本和图像，zero shot效果堪比ResNet50？相关推荐

OpenAI又放大招：连接文本与图像的CLIP，在ImageNet上效果媲美ResNet50
2020年,通用模型产生了经济价值,特别是GPT-3,它的出现证明了大型语言模型具有惊人的语言能力,并且在执行其他任务方面也毫不逊色. 2021年,OpenAI 联合创始人 Ilya Sutskeve ...
OpenAI打破文本和图像次元壁，提出基于对比学习的多模态预训练模型CLIP
OpenAI 打破了自然语言与视觉的次元壁,推出了一个连接文本与图像的神经网络模型CLIP. 相关资料 CLIP原论文:Radford et al. Learning transferable vis ...
引燃AI社区，不用跨界也能从文本生成图像，OpenAI新模型打破自然语言与视觉次元壁...
视学算法报道作者:魔王.杜伟.蛋酱艺术创作的事,以后人类只要动手打几个字,其他的交给 AI 就行了. 自然语言与视觉的次元壁正在被打破.这不,OpenAI 最近连发大招,提出两个连接文本与图像的神 ...
大神开源AI代码！这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦！
作者 | 耳洞打三金大家好我是三金,相信大家都还记得上周报道的OpenAI新出的名叫DALL.E的120亿参数神经网络模型,它可以魔法一般按照自然语言文字描述直接生成对应图片! 效果如下所示: 文本 ...
首次发现！AI脑回路演化向人类更进一步，OpenAI最新研究引热议，有学者评价：太吓人了...
浩楠晓查发自凹非寺量子位报道 | 公众号 QbitAI 两个月前轰动网络的AI设计大师CLIP,刚刚被OpenAI"扒开"了脑子. 没想到,这个性能强大的AI竟和人类思 ...
如何评价一个产品经理工作做的好坏？
有很多小伙伴问我,如何给产品经理定KPI?或者说如何考核一个产品经理的工作是ok的?这个问题确实造成很多产品经理的困惑,产品经理的工作目标是满足用户需求,对用户体验的优化:运营的工作是以KPI为导向, ...
如何评价测试人员的工作绩效？
如何评价测试人员的工作绩效? Author:袁琳 MSN:testwin@sohu.com 随着国内软件测试行业的不断发展,软件测试工作更加深入.规范.其中对测试人员的绩效考核也越来越重要.目前,很多 ...
感恩工作平台心得体会_最新感恩工作心得体会 (范本)
最新感恩工作心得体会 ( 范本 ) [格式及要点] I .标题心得体会的标题可以采用以下几种形式: 在 XX 活动 ( 或 XX 工作 ) 中的心得体会关于 XX 活动 ( 或 XX 工作 ) 心 ...
缩小规模，OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E
视学算法报道编辑:陈萍.小舟模型的参数规模并不需要那么大. 从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向.现在 ...

如何评价OpenAI最新的工作CLIP：连接文本和图像，zero shot效果堪比ResNet50？

如何评价OpenAI最新的工作CLIP：连接文本和图像，zero shot效果堪比ResNet50？相关推荐

最新文章

热门文章