超越CLIP!谷歌发布首个大规模MoE架构的视觉语言模型
文 | 明敏(发自凹非寺)
源 | 量子位
多模态模型常见,但是基于稀疏化的还是头一个。谷歌带来最新成果LIMoE,首次将稀疏化方法用在了图像文本混合模型上。要知道,随着大模型参数呈指数级增加,训练成本也是一路飙升。
所以如何降低训练成本,成为了目前学界重点关注的一个问题。
谷歌想到的办法,不是拼硬件,而是从模型本身入手。利用稀疏化的方法,让每次输入只需激活部分网络就能完成任务。
它们在模型内部设置了很多“专家”,每个“专家”只需处理对应部分的输入,根据任务情况按需使用“专家”就好。这样一来,尽管模型容量很大,但是计算成本并没有暴增。而且还不会降低性能。新方法LIMoE零样本学习任务中,可是直接超越了CLIP。怪不得网友高呼:
快分享给我们API!
让不同“专家”处理不同任务
对于深度学习来说,能同时处理文本图像任务其实已经不稀奇。不过过去常见的多模态学习方法,往往是单个输入就需要激活整个网络。谷歌这次提出的新方法,最大亮点就是首次在这一领域采用了稀疏化模型。
稀疏化的方法便是无需让整个模型来处理所有的输入。通过对神经网络进行划分,它让神经网络也“专业对口”,不同的子模型只处理固定类型的任务或数据。
但也不是完全割裂开来,模型内部仍有可共享的部分。此次基于的模型是MoE(Mixture-of-Experts layer),它被称为专家混合模型。也就是在Transformer架构的基础上,加设了“专家层”。
它是一个并行的FNN,取代了原本的前馈网络。这里的“专家”,也就是模型内部的不同子模型。每个子模型专门用于不同的输入。
每一层中的专家由门控网络控制,该网络根据输入数据激活专家。对于每个标记,门控网络选择最合适的专家来处理数据。
此次新提出的LIMoE,其实就是让MoE能同时处理图像文本。具体来看,就是让LIMoE进行对比学习。
在利用大量图像-文本对训练时,网络内部的图像模型提取图像表示,文本模型提取文本表示。针对相同的图像-文本对,模型会拉近图像和文本表示的距离。
反之,对于不同的图像-文本对,则会让相应的表示彼此远离。这样一来的直接好处,就是能实现零样本学习。比如一张图像的表示更接近文本“狗”的表示,那么它就会被归类为狗。这种思路可以扩展到数千种情况。
实际上,CLIP和ALIGAN采用的都是这个思路,它们在ImageNet数据集上的精度分别是76.2%、76.4%。而LIMoE-L/16可以达到78.6% ,已经超过了CLIP。未经过预训练的LIMoE H/14则能达到84.1%的精度。
而在LIMoE的专家层中,谷歌表示还发现了一些有趣的现象。比如在训练设置中,图像标记比文本标记要多很多,因此所有专家都会在在任务中多少处理些图像。
只不过有的会主要处理图像,有的主要处理文本,或者二者兼具。还有在大多数情况下,都会有一个专家来处理所有包含文本表示的图像patch。
除了性能上的提升,使用稀疏化模型的好处还体现在降低计算成本上。因为“多专家”的模式意味着,尽管多设了很多子模型,模型容量显著增加,但是实际计算成本并没有明显变化。
如果一次任务中只使用了一个子模型,那它的成本和标准Transformer的差不多。比如LIMoE-H/14总共有5.6B参数,但是通过稀疏化,它只会使用每个token的675M参数。
One More Thing
稀疏化模型一直是谷歌深度研究的一个方向,已经提出了MoE、GLaM在内的多个模型。这次LIMoE也不是谷歌第一次魔改MoE。
去年6月,他们提出了V-MoE,是一种新型的视觉架构,今年已将全部代码开源。
参考链接:
https://ai.googleblog.com/2022/06/limoe-learning-multiple-modalities-with.html
后台回复关键词【入群】
加入卖萌屋NLP、CV、搜广推与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各大顶会论文集!
超越CLIP!谷歌发布首个大规模MoE架构的视觉语言模型相关推荐
- 对话预训练_百度发布首个大规模隐变量对话模型PLATO
百度于去年10月公布的基于飞桨开源深度学习平台开发的通用领域对话生成预训练模型PLATO,相关论文最近已正式被ACL 2020接收. PLATO是业界首个基于隐空间(Latent Space)的端到端 ...
- AI进军古典乐坛?谷歌发布首个人工智能交互图标!
你们都看今天的Google Doodle (首页图标)了吗? 为纪念伟大作曲家巴赫诞辰354周年,Google在昨天(美国时间3月21日)推出了首个AI交互Doodle(logo涂鸦): 进入互动界面 ...
- 谷歌浏览器中文版_中国科学家设计超薄指尖传感器,厚度不到A4纸五分之一 / 谷歌发布地图时光机:百年前,你家街道啥样?/ AI看图说话首超人类...
关注我们了解计算机视觉最新动态 ! 动态先览 1 中国科学家设计超薄指尖传感器,厚度 不到A4纸五分之一 2 谷歌发布地图「时光机」:100年前, 你家街道长啥样? 3 仿真环境跟车2分钟,就让自动驾 ...
- 谷歌发布 Android 8.1 首个开发者预览版,优化内存效率
今晨,谷歌推出了 Android 8.1 首个开发者预览版,此次升级涵盖了针对多个功能的提升优化,其中包含对 Android Go (设备运行内存小于等于 1 GB)和加速设备上对机器学习的全新神经网 ...
- 2021云栖大会丨阿里云发布第四代神龙架构,提供业界首个大规模弹性RDMA加速能力
简介:10月20日,2021年杭州栖大云会上,阿里云发布第四代神龙架构,升级至全新的eRMDA网络架构,是业界首个大规模弹性RDMA加速能力. 10月20日,2021年杭州栖大云会上,阿里云发布第四代 ...
- 智源社区周刊No.94:谷歌发布PaLM-SayCan,用大模型解析机器人指令;Dwork谈算法公平性;KDD2022奖项出炉...
汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 谷歌发布PaLM-SayCan:大模型引导机器人理解人类的指令并执行任务 查看详情 在过去 ...
- 极客日报:小鹏汽车回应非法收集人脸数据被罚10万;OPPO发布首颗自研芯片马里亚纳X;AMD 3DNow指令集被Linux淘汰
一分钟速览新闻点! 阿里巴巴推出暖心计划:新增共27天时长带薪假 程序员编码自动给自己微信转账553笔 超21万元 OPPO发布首颗自研芯片马里亚纳X 挂机外挂软件破坏QQ正常运行,腾讯一审获赔52万 ...
- 900万张标注图像,谷歌发布Open Images最新V3版
翻译 | Shawn 过去几年机器学习的发展使得计算机视觉有了快速的进步,系统能够自动描述图片,对共享的图片创造自然语言回应.其中大部分的进展都可归因于 ImageNet .COCO(监督学习)以及 ...
- 谷歌发布史上最强人类大脑「地图」,在线可视3D神经元「森林」!
突触,是神经网络的「桥梁」. 我们知道,人类大脑有860亿个神经元,因为有了突触,才可以把神经元上的电信号传递到下一个神经元. 长久以来,科学家们一直梦想通过绘制完整的大脑神经网络的结构,以了解神经系 ...
最新文章
- 读书笔记之MySQL技术内幕
- Libvirt 版本降级过程记录 4.5.0 to 3.9.0
- appium---【Mac】Appium-Doctor提示WARN:“ ios_webkit_debug_proxy cannot be found”解决方案...
- python print 输出到txt_Python的print()输出形式
- Spring事务管理--嵌套事务详解
- git fatal:HttpRequestException encountered
- Spring Boot SLF4J日志实例
- 为什么不敢和别人竞争_净空法师开示:学老实,在社会上不能跟人竞争吗? - 如是我闻佛教网...
- mysql_real_connect段错误,mysql的多线程安全问题:在mysql_real_connect时出现段错误。...
- phalcon开发工具(phalcon-devtools)
- 将OpenWRT安装到 X86 电脑硬盘中
- 在PDMS中使用python直接生成管口方位图(开源分享第二集)
- 网络教育统考计算机和英语作文,网络教育英语统考试题
- win10升级后VMware不能使用,更新升级失败
- 又一大的技术站点域名被ClientHold了
- 如何在Win10不同设备之间同步便签
- 鸿蒙操作系统系列——LiteOS启动流程分析
- 多可文档管理服务器,【多可文档管理系统怎么用】多可文档管理系统好不好_使用技巧-ZOL软件百科...
- 力扣(300,674)补9.11
- Camera | 4.瑞芯微平台MIPI摄像头应用程序编写