链接:https://www.zhihu.com/question/438649654

编辑:深度学习与计算机视觉

声明:仅做学术分享,侵删

作者:谢凌曦
https://www.zhihu.com/question/438649654/answer/1670115915

先说看法:多模态是趋势没错,可CLIP只是迈出了非常简单的第一步。

只要简单地扫过文章,就会发现方法简单地令人发指——熟悉深度学习编程的人,一个上午大概就能复现出所有代码。而整篇文章最大的复现难点,显然是OpenAI自行收集的400M文本图像配对的数据集。

如果要对比这个方法和传统图像分类方法,那么优缺点都是比较明显的:

  • 相比于传统图像分类方法的优势。这是显而易见的:每张图像的标签不再是一个名词,而是一个句子,因此以往被强行分成同类的图像,就有了“无限细粒度”的标签。例如ImageNet给图片打的标签是“金毛寻回犬”,而这种配对的例子,就可以学习“金毛寻回犬”身处不同环境、在做不同事情的细微差别。

  • 相比于传统图像分类方法的劣势。主要还是文本和图像的配对关联性不够强。这是为什么作者反复强调要收集巨大的数据集,因为他们必须通过大数据的方式来压制噪声。从这个观点出发,我们可以看出些许未来的趋势(见下面第2和第3点)。

最后再说一些扩展的观点:

1.千万不要被它zero-shot的能力吓到,这不是真正的zero-shot!在400M个文本图像配对的训练中,模型肯定看到了大量打着相关文本标签的图像,而且图像的domain比ImageNet要广得多——这也是为什么方法能够在一些高级场景(如clipart)轻松超越ImageNet预训练模型。但是要说这种方法碾压了有监督方法,就有点震惊体哗众取宠的意味了。

2.另一个耐人寻味的地方,是方法同时训练了图像和文本特征(感谢评论区@llll的提醒,一开始我看成只训练图像了)。我直觉地认为文本预训练特征比视觉预训练特征更可靠,但是作者却放弃了OpenAI祖传的超大的文本预训练模型,令人略感意外。尤其是,NLP的预训练模型体量远超视觉预训练模型,所以固定文本模型,也许是更实用的方法?

3.最让我感兴趣的问题,是图像和文本之间的交互方式。直接用文本的encoding结果做为图像的监督信号,显然噪声太大了;能否借鉴captioning等方向的做法,允许图像和文本在encoding过程中多次交互,从而提升效果?当然,这里还是涉及到语言模型太大,无法高效训练。不过,OpenAI也可以选择暴力出奇迹,直接从头训练大规模的跨模态预训练模型。只是这样做的话,400M的数据集可能就太小了。

4.再往深了说,NLP的预训练之所以能做得好,关键是pretext任务比较好。相比起来,CV还在苦苦寻找合适的pretext任务。当前我对跨模态的最大预期,就是能够在NLP的辅助下,定义CV的pretext任务。CLIP迈出了第一步,前面的路还长得很。

总之,CLIP这个工作,技术突破不大,效果还算惊艳。作为占坑之作,将来应该会成为跨模态的一个重要baseline。

作者:刘一凡
https://www.zhihu.com/question/438649654/answer/1676282272

1.首先是最大的VIT-L/14的zero-shot的精度到了76.2,也就是提问里的“zero shot效果堪比ResNet50”,VIT-L/14的参数量大概是ResNet50的几十倍了。

2.跑了一下inference code,从人的感觉上来看,还是很惊艳的。吃饭的时候随手拍的西部马华的牛肉面,臊子面,酸菜鱼面 做zero-shot分类竟然都识别对了,下图中使用三种描述:

["a bowl of beef noodles", "a bowl of simmered noodles", "a bowl of sauerkraut fish noodles"]

分别输出三幅图片在三种描述下的概率。都分对了,400 million数据还是强

作者:陀飞轮
https://www.zhihu.com/question/438649654/answer/1670144224

clip感觉像是把图像的高维空间映射到文本的高维空间上,但是文本的空间纬度会比图像的空间维度要低的多,文本信息比起图片信息噪声少,语义解耦更加彻底一些,相当于拿图片向量去跟文本向量进行聚类,比起单纯图片的对比学习,聚类方向性更加明确

text encoding类似于空间锚点,给什么锚点,图像就往设定的方向聚类,感觉是更复杂的图像级别的标label方式,这种复杂的标label方式可以把text的高维空间表达的更加复杂,图片可以更加细致的分布到合适区域

作者:kai.han
https://www.zhihu.com/question/438649654/answer/1670526162

技术上没有特别新的地方,能把这个setting做work做惊艳也是人才(2012年AlexNet之前也没人把CNN做到那么好)!意义在于再一次证明了大数据的威力。

这篇论文用了400M的图像文本对,联想到谷歌的JFT300M图像标注数据,注意这些数据都是未公开的,整个CV圈怎么越来越朝着医疗图像一样发展了?

还记得这次深度学习的兴起,一个大功臣就是开放的ImageNet数据集。希望有越来越多的大型数据集公开,共襄学术盛举,为了科技的繁荣,为了社会的进步!

另一方面,我们还是得寄希望于无监督学习的发展,早日赶超标注数据的效果,降维打击,这样我们就可以解放数据标注员了

作者:匿名用户
https://www.zhihu.com/question/438649654/answer/1669795003

通过对比学习完成了图像语义和文本语义的registration,本质上就是以文本语义为模板(因为文本语义是明确的,NLP的语义嵌入完成的已经比较好了,而图像的语义还不行),协助完成图像语义级别的解耦表示。

这个工作其实没有提供理论层面的新的认知,是在已有认知的方向上进行的验证性工作。我期待看到的,其实是能更新我们对于DL系统认知的工作。

我现在能想到的一个方向是,是否可以通过图像和视频来构造出一套语言,就像人类通过视觉信息构造出语言系统一样。这当然首先要完成对视觉信息的解耦表示,需要不依赖文本语义信息的监督。理论上说这是完全可能的,因为人类大脑就是完成了这个任务,有无可能我们也可以由算法构建一套新的‘自然语言’?这是个有趣的问题。这套语言和我们现在的人类语言会存在对应关系么?有无可能会出现多套没有明确对应关系的语言系统?我觉得完全有这个可能。

作者:黄挂
https://www.zhihu.com/question/438649654/answer/1674973615

大家都提到400m的数据集是关键 但我还想再挑明一点是,这400m的集的构造方式,paper里简单说了一句,是用wikipedia里50万个词条每个词条2万条结果组成的。这个2万才是关键。一个实体如果有两万张图片可供学习,即使可能有噪音也能学到泛化爆表吧。然后imagnet的1000个类大概率会落在这50个词条里,这就是zero shot效果好的本质原因。想想jmagenet一共128万条数据,1000个类,匀下来一个类也才1280张。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

如何评价OpenAI最新的工作CLIP:连接文本和图像,zero shot效果堪比ResNet50?相关推荐

  1. OpenAI又放大招:连接文本与图像的CLIP,在ImageNet上效果媲美ResNet50

    2020年,通用模型产生了经济价值,特别是GPT-3,它的出现证明了大型语言模型具有惊人的语言能力,并且在执行其他任务方面也毫不逊色. 2021年,OpenAI 联合创始人 Ilya Sutskeve ...

  2. OpenAI打破文本和图像次元壁,提出基于对比学习的多模态预训练模型CLIP

    OpenAI 打破了自然语言与视觉的次元壁,推出了一个连接文本与图像的神经网络模型CLIP. 相关资料 CLIP原论文:Radford et al. Learning transferable vis ...

  3. 引燃AI社区,不用跨界也能从文本生成图像,OpenAI新模型打破自然语言与视觉次元壁...

    视学算法报道 作者:魔王.杜伟.蛋酱 艺术创作的事,以后人类只要动手打几个字,其他的交给 AI 就行了. 自然语言与视觉的次元壁正在被打破.这不,OpenAI 最近连发大招,提出两个连接文本与图像的神 ...

  4. 大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!

    作者 | 耳洞打三金 大家好我是三金,相信大家都还记得上周报道的OpenAI新出的名叫DALL.E的120亿参数神经网络模型,它可以魔法一般按照自然语言文字描述直接生成对应图片! 效果如下所示: 文本 ...

  5. 首次发现!AI脑回路演化向人类更进一步,OpenAI最新研究引热议,有学者评价:太吓人了...

    浩楠 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 两个月前轰动网络的AI设计大师CLIP,刚刚被OpenAI"扒开"了脑子. 没想到,这个性能强大的AI竟和人类思 ...

  6. 如何评价一个产品经理工作做的好坏?

    有很多小伙伴问我,如何给产品经理定KPI?或者说如何考核一个产品经理的工作是ok的?这个问题确实造成很多产品经理的困惑,产品经理的工作目标是满足用户需求,对用户体验的优化:运营的工作是以KPI为导向, ...

  7. 如何评价测试人员的工作绩效?

    如何评价测试人员的工作绩效? Author:袁琳 MSN:testwin@sohu.com 随着国内软件测试行业的不断发展,软件测试工作更加深入.规范.其中对测试人员的绩效考核也越来越重要.目前,很多 ...

  8. 感恩工作平台心得体会_最新感恩工作心得体会 (范本)

    最新感恩工作心得体会 ( 范本 ) [格式及要点] I .标题 心得体会的标题可以采用以下几种形式: 在 XX 活动 ( 或 XX 工作 ) 中的心得体会 关于 XX 活动 ( 或 XX 工作 ) 心 ...

  9. 缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E

    视学算法报道 编辑:陈萍.小舟 模型的参数规模并不需要那么大. 从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向.现在 ...

最新文章

  1. 大数据WEB阶段(八)Tomcat服务器安装与详解、HTTP协议详解
  2. [JS]string.substr(start,length)str.slice(begin, end)
  3. 使用CancellationToken——而不是Thread.Sleep
  4. 代码统计工具有哪几种_DevOps:优秀代码分析工具的自我修养
  5. C#数字日期转成中文日期
  6. 人工智能时代,我们需要什么样的芯片?| 码书
  7. 告别ASP.NET操作EXCEL的烦恼(总结篇)
  8. Jquery Cookbook摘要之使用上下文参数
  9. mysql中的leading用法_MySQL 函数笔记
  10. paip输入法编程之生活用高频字,以及汉字分级
  11. 数据同步工具—Sqoop
  12. 实现三级导航demo
  13. 996工作制,还要抽时间提升自己吗?
  14. linux进入桌面后CPU狂转,笔记本风扇狂转+CPU调节问题
  15. java 根据条件从List中筛选出符合条件的集合
  16. 如何解决Mac电脑在启动时出现空白屏幕的情况?
  17. 全国大江大河实时水情数据下载
  18. css 实现心形加载动画
  19. 练习6:多表关联查询、嵌套子查询
  20. mysql怎么分组计算逾期率_Tableau分享第一篇:如何计算分组留存率(Cohort Analysis)!...

热门文章

  1. 记账一段时间后,如何根据条件查看收支明细
  2. 【蓝桥杯历年题】2020蓝桥杯第十一届A组省赛第一场(7.5)【含Acwing提交地址】
  3. Linux系统下便捷使用中国知网的方式
  4. D3D11设备接口的动态创建方法
  5. 毕业于华东地质学院 计算机,主攻智能机器人控制等方向 王耀南当选中国工程院院士...
  6. IRC扫盲——你可以不会玩QQ,但不能不会IRC!
  7. 这些计算机领域的重要定律你都清楚吗?
  8. 类的构造函数与析构函数
  9. 全球与中国电梯张紧装置市场现状及未来发展趋势(2022)
  10. Linux执行date命令发现差了12小时,格式是EDT