一句话总结

本文提出了Fast Language-Image Pre-training (FLIP),这是一种简单且更有效的训练CLIP的方法。

点击进入—>Transformer微信技术交流群

FLIP

Scaling Language-Image Pre-training via Masking

单位:Meta AI, FAIR(何恺明等人)

论文:https://arxiv.org/abs/2212.00794

我们的方法在训练过程中随机mask并删除了大部分图像patches。Masking允许我们在相同的wall-clock time内从更多的图像-文本对中学习,并在内存占用相似的情况下每次迭代对比更多的样本。



实验结果

它导致准确性和训练时间之间的有利权衡。在我们对4亿图像-文本对的实验中,FLIP提高了 no-masking基线的准确性和速度。在大量downstream任务上,FLIP的性能明显优于在相同数据上训练的CLIP工作。

在加速的推动下,我们探索了增加模型大小、数据大小或训练长度的扩展行为,并报告了令人鼓舞的结果和比较。我们希望我们的工作将促进未来关于扩展视觉-语言学习的研究。





CVer-Transformer交流群

点击进入—>Transformer微信技术交流群

建了Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer222。加的时候备注一下:Transformer+学校/公司+昵称+CSDN,即可。然后就可以拉你进群了。

何恺明团队新作FLIP:通过Masking扩展语言-图像预训练相关推荐

  1. Facebook何恺明团队提出SlowFast网络,视频识别无需预训练

    Facebook FAIR 何恺明团队提出了用于视频识别的SlowFast网络.该网络通过两条路径以不同的时间率(快和慢)进行视频识别.在没有预训练的情况下,在Kinetics数据集上的准确率达到了7 ...

  2. NeurIPS 2022 | 何恺明团队新作:MAE扩展到视频!学习时空表示,最优Mask比例高达90%!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:AIWalker 2021年末,何恺明团队提出MAE在CV届引起极大轰动,自上传到arxiv之后,各 ...

  3. 何恺明团队新作!Transformer遇见Mask R-CNN哪家强?

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自丨极市平台   作者丨happy 导读 本文是FAIR的何恺明团队关于ViT在COCO检测任务上的迁移 ...

  4. 何恺明团队新作:只用普通ViT,不做分层设计也能搞定目标检测

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 微软的Swin ...

  5. 解决训练不稳定性,何恺明团队新作来了!自监督学习+Transformer=MoCoV3

    本文是FAIR的恺明团队针对自监督学习+Transformer的一篇实证研究.针对Transformer在自监督学习框架中存在的训练不稳定问题,提出了一种简单而有效的技巧:Random Patch P ...

  6. 何恺明团队新作:图像分割精细度空前,边缘自带抗锯齿,算力仅需Mask R-CNN的2.6%...

    鱼羊 乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 又是何恺明超越何恺明. 其团队最新论文一出,图像分割又往前一大步: 消耗的资源变得更少,算力仅需Mask R-CNN的2.6%. 不 ...

  7. MoCoV3:何恺明团队新作!解决Transformer自监督训练不稳定问题!

    文 | happy 源 | 极市平台 论文链接: https://arxiv.org/abs/2104.02057 本文是FAIR的恺明团队针对自监督学习+Transformer的一篇实证研究.针对T ...

  8. 何恺明团队新作!深度学习网络架构新视角:通过相关图表达理解神经网络

    标题&作者团队 导语:恺明大神出品,必属精品.Facebook的研究员从一个新奇的角度对神经网络的表示与设计进行探索,提出了一种新颖的相关图表示方式.它有助于对现有网络架构进行更深层次的分析与 ...

  9. 【论文解读】深度学习网络架构新视角:通过相关图表达理解神经网络(何恺明团队新作)...

    文章来源于极市平台,作者Happy 标题&作者团队 导语:恺明大神出品,必属精品.Facebook的研究员从一个新奇的角度对神经网络的表示与设计进行探索,提出了一种新颖的相关图表示方式.它有助 ...

最新文章

  1. OpenCV入门系列(4):显示一张图片和一个视频
  2. Flume日志收集系统架构详解--转
  3. workbeach约束简称_AnsysWorkbenchFluidFlow(FLUENT)经典问题.docx
  4. 通过ADB命令获取Android手机的分辨率(升级版)
  5. VS2015编译boost 1.62.0
  6. note同步不及时 one_朱海舟回应锤子便签同步不及时:工程师已经解决
  7. linux系统下定时备份,在Linux系统中简单地实现定时备份的方法 -电脑资料
  8. jsp mysql书店源码_使用jsp数据库mysql实现网上购物书店课程设计
  9. 将Ubuntu安装到U盘
  10. java volatile关键字使用
  11. 总纲篇:产品结构设计指导VII(本博客指引章节)
  12. 微信内置浏览器不支持下载文件的解决方案
  13. dva是什么游戏_守望先锋:DVA这个皮肤小蛮腰不算什么,全部细节是这个小脚丫...
  14. 注册坚果云无法连接服务器,坚果云无法连接服务器怎么办?
  15. outlook设置263邮件服务器,Outlook 2010中263邮箱客户端设置
  16. adb connect连接手机失败的解决办法
  17. Oracle数据库cmd登陆
  18. 带着问题,再读ijkplayer源码
  19. js 超简单 判断是否字符串是否为纯数字
  20. dashboard 镜像源_kubernetes相关镜像源地址汇总

热门文章

  1. 51单片机8*8点阵,按键控制数字加拼音上下左右移动
  2. 05流量管理原理-3金丝雀TCP流量整形比例分配
  3. java基础知识总结(三)
  4. STM8/STM32 SPI模式的MAX7456代码
  5. 刚刚!霍金向北京喊话:人类需要大胆前行,涉足无前人所及之处
  6. java零基础多久能学会_小白学java大概需要多久 零基础学起来难么
  7. R语言 表达式对象的求值 eval
  8. kali虚拟机配置成桥接模式
  9. 微信小程序—audio(音频)
  10. 任何一个二目关系都是BCNF