来源:新智元本文约1300字,建议阅读5分钟 视觉Transformer进阶。

近日,谷歌大脑团队公布了Vision Transformer(ViT)进阶版ViT-G/14,参数高达20亿的CV模型,经过30亿张图片的训练,刷新了ImageNet上最高准确率记录——90.45%,此前的ViT取得的最高准确率记录是 88.36%,不仅如此,ViT-G/14还超过之前谷歌提出的Meta Pseduo Labels模型。

Vision Transformer模型的缩放规律

在多项基准测试中,ImageNet, ImageNet-v2和VTAB-1k,ViT-G/14的表现都刷新了记录。

例如,在几张照片的识别挑战中,准确率提高了五个百分点以上。研究人员随后训练了多个更微型的模型版本,以寻找架构的缩放规律(scaling law),结果观察到性能遵循幂律函数(power-law function),类似于用于NLP的Transformer模型。

2017年由谷歌首次引入的 Transformer 架构迅速成为最受欢迎的NLP深度学习模型设计,其中 OpenAI的GPT-3是最著名的。OpenAI 去年发布的一项研究描述了这些模型的缩放规则(Scaling rules)。

OpenAI 通过训练几个不同规模的可比模型,改变训练数据的数量和处理能力,开发了一个用于评估模型准确性的幂律函数。此外,OpenAI 发现更大的模型不仅性能更好,而且计算效率也更高。

与 NLP 模型不同,大多数SOTA的 CV 深度学习模型,采用的是卷积神经网络架构(CNN)。2012年, 一个CNN模型赢得了ImageNet竞赛,CNN因此声名鹊起。

随着Transformer最近在 NLP 领域的成功,研究人员已经开始关注它在视觉问题上的表现; 例如,OpenAI 已经构建了一个基于 GPT-3的图像生成系统。

谷歌在这个领域一直非常活跃,在2020年年底使用他们专有的 JFT-300M 数据集训练了一个600m 参数的 ViT 模型。

△ 去年10月,谷歌大脑团队发布了Vision Transformer(ViT)

而新的ViT-G/14模型使用 JFT-3B 预先训练,JFT-3B是升级版数据集,包含大约30亿张图片。

研究团队改进了 ViT 架构,增加了内存使用,使模型能够适应单个 TPUv3核心。研究人员在预先训练的模型上使用少量和微调的迁移学习来评估 ViT-G/14和其他较小模型的性能。这些发现被用来创建缩放规则,类似于 NLP 规则:

根据幂律函数,缩放更多的计算、模型和数据可以提高准确性;

在较小的模型中,准确性可能是一个障碍;

大型数据集有助于大型模型。

目前,ViT-G/14得分在 ImageNet 排行榜上排名第一。下面的八个得分最高的模型同样是由谷歌的研究人员创建的,而第十个模型来自Facebook。

作者团队

本次论文团队成员是此前发布ViT模型的4名成员,其中,第一作者是Xiaohua Zhai (翟晓华)。

https://sites.google.com/site/xzhai89/home

翟晓华目前是谷歌大脑研究员。研究领域为深度学习和计算机视觉。兴趣范围包括表征学习、迁移学习、自监督学习、生成模型、跨模态感知。

根据他的个人网站提供的信息,2009年,翟晓华本科毕业于南京大学,2014年取得北京大学计算机科学博士学位。

另外,论文作者Alexander Kolesnikov,同为谷歌大脑研究员,研究领域包括人工智能、机器学习、深度学习和计算机视觉。

毕业于奥地利Institute of Science and Technology Austria (IST Austria),博士论文为Weakly-Supervised Segmentation and Unsupervised Modeling of Natural Images(自然图像的弱监督分割和无监督建模)。

另一名作者Neil Houlsby(下图),研究领域为机器学习、人工智能、计算机视觉和自然语言处理。

第四名作者Lucas Beyer,是一名自学成才的黑客、研究科学家,致力于帮助机器人了解世界、帮助人类了解深度学习(本作者暂未找到图片)。

参考资料:

https://arxiv.org/pdf/2106.04560.pdf

https://www.marktechpost.com/2021/06/28/google-trains-an-ai-vision-model-with-two-billion-parameter/

编辑:文婧

20亿参数+30亿张图像,刷新ImageNet最高分!谷歌大脑华人研究员领衔发布最强Transformer...相关推荐

  1. 刷新ImageNet最高分!谷歌大脑华人研究员发布超强Transformer

    近日,谷歌大脑团队公布了Vision Transformer(ViT)进阶版ViT-G/14,参数高达20亿的CV模型,经过30亿张图片的训练,刷新了ImageNet上最高准确率记录--90.45%, ...

  2. 海联金汇巨亏24亿,30亿收购的联动优势商誉减值20亿、背后现大量现金贷口子

    作者 | 金子琪 来源 | 互联网金融电讯 原标题 | 海联金汇巨亏24亿,30亿收购的联动优势商誉减值20亿.背后现大量现金贷口子,云南信托涉嫌违规"再犯"合作蜜小蜂疑无放贷牌照 ...

  3. 5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度

    关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 机器人越来越像人了!谷歌等的这项 ...

  4. 刷新ImageNet最高分!谷歌发布最强Transformer

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 近日 ...

  5. 8亿参数,刷新ImageNet纪录:何恺明团队开源最强ResNeXt预训练模型

    栗子 发自 凹非寺  量子位 报道 | 公众号 QbitAI 来自Facebook何恺明团队,比以往都强大ResNeXt预训练模型开源了. 它叫ResNeXt WSL,有超过8亿个参数,用Instag ...

  6. 缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E

    视学算法报道 编辑:陈萍.小舟 模型的参数规模并不需要那么大. 从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向.现在 ...

  7. 模型越大,真的越香吗?千亿参数之后是万亿,万亿之后呢?

    ‍ ‍ 智源导读:自2018年谷歌提出BERT模型以来,以BERT.GPT等为代表的模型越来越往「大」这一方向发展,短短3年时间,模型参数已经从最初3亿,扩张到万亿规模.与此同时,以T5.GPT-3等 ...

  8. 150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码

    来源:机器之心 本文共2400字,建议阅读5分钟 本文为你介绍谷歌开源史上最大视觉模型V-MoE的全部代码. 还记得谷歌大脑团队去年 6 月份发布的 43 页论文<Scaling Vision ...

  9. 炼个BERT别人花几分钟你花了快1天?谷歌:我这是4810亿参数的巨型BERT

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 机器学习 ...

最新文章

  1. mac 推荐一款本机截屏找latex公式软件Mathpix 亲测有效
  2. centos xampp安装mysql_在xampp上部署dvwa|centos(linux)环境
  3. 【原】docker部署单节点consul
  4. 【POJ - 3281】Dining(拆点建图,网络流最大流)
  5. 【安全牛学习笔记】Kali Linux***测试介绍
  6. 061 实例15-霍兰德人格分析雷达图
  7. 用Python3开发简单应用——兽人之袭
  8. PHP可以读取什么配置文件,使用php读取配置文件
  9. springboot框架学习理解下
  10. 《HTML与CSS入门经典(第8版)》——第2章 发布Web内容2.1 创建用于本章的示例文件...
  11. Android超精准计步器开发-Dylan计步
  12. VS2008 SP1 安装卡在 VS90sp1-KB945140-X86-CHS的解决方法
  13. 服务器搬迁清单需要启动任务以及恢复办法
  14. linux mint怎么切换输入法,Linux Mint安装ibus五笔和拼音输入法简明教程(示例代码)...
  15. Spring Framework究竟是什么? [关闭]
  16. umail for linux,umail邮件服务器 For Linux安装图示(独立安装包)
  17. python实现简单的多人聊天功能
  18. 商业虚拟专用网络技术十三 BGP/MPLS报文转发
  19. NDK-r25交叉编译qemu:tests/qtest/libqos/libqos.fa.p/pci.c.o报错
  20. C++ 项目实战:跨平台的文件与视频压缩解压工具的设计与实现

热门文章

  1. vs code中文乱码解决方法
  2. 编写程序,输入某年某月,求该月有多少天
  3. mysql工具navicat用户授权_Navicat使用教程:在Navicat Premium中管理MySQL用户 - 第4部分:权限管理器工具...
  4. 学python人工智能需要多久_人工智能Python开发怎么学才能最快入门
  5. Linux命令 crontab的理解和使用方法
  6. (19)Reactor Processors——响应式Spring的道法术器
  7. 博客园自定义页面风格设计 后续篇(页面设计模式及代码高亮 鼠标点击效果升级)...
  8. 深入解析和反思携程宕机事件
  9. C#中的BackgroundWorker控件
  10. BGP Soft Reset Enhancement