本视觉Transformers(86M参数)在ImageNet上达到83.1%的top-1精度,蒸馏版本高达84.4%!优于ViT、RegNet和ResNet等,代码刚刚开源!

注:文末附【Transformer】学习交流群

Training data-efficient image transformers & distillation through attention

  • 作者单位:Facebook AI, 索邦大学。注:其中一位也是DETR的作者之一
  • 代码(不到一天,已经近200 star了):https://github.com/facebookresearch/deit
  • 论文:https://arxiv.org/abs/2012.12877

最近,显示出纯粹基于注意力的神经网络可解决图像理解任务,例如图像分类。但是,这些视觉transformers使用昂贵的基础架构预先接受了数亿个图像的训练,从而限制了它们在更大的社区中的应用。关于视觉Transformer,推荐看一下这个最新综述:华为等提出视觉Transformer:全面调研

在这项工作中,通过适当的训练计划,我们仅通过在Imagenet上进行训练即可生产出具有竞争力的无卷积transformers。我们不到三天就在一台计算机上对其进行了训练。我们的视觉transformers(86M参数)在ImageNet上无需外部数据即可达到83.1%的top-1精度(单幅评估)。我们共享我们的代码和模型,以加快社区在这方面的研究进展。


此外,我们介绍了特定于transformers的师生策略。它依靠蒸馏令token确保学生通过注意力向老师学习。我们展示了这种基于token的蒸馏的兴趣,尤其是在使用卷积网络作为教师时。这使我们能够报告与卷积网络相比在Imagenet(我们可以获得高达84.4%的准确性)和迁移到其他任务时具有竞争力的结果。


主要贡献:

实验结果



Transformer交流群

已建立CVer-Transformer微信交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer5555。加的时候备注一下:Transformer+学校+昵称,即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。

Training data-efficient image transformers distillation through attention相关推荐

  1. DeiT:Training data-efficient image transformers distillation through attention

    这篇文章主要是通过一些训练策略和知识蒸馏来提升模型的训练速度和性能效果. 原文链接:Training data-efficient image transformers & distillat ...

  2. 语音识别论文:Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Arc

    声明:我主要从事语音合成,对语音识别的学习主要出于兴趣.文章内容摘要如有错误,还望读者指出,共同​学习进步. 欢迎关注微信公众号:低调奋进 Comparing the Benefit of Synth ...

  3. GPT-2隐私泄露论文阅读:Extracting Training Data from Large Language Models

    文章目录 论文地址: 原文阐释: 渔樵问对: 原理梗概 预防策略 隐私策略 这个新颖的攻击方式是什么? 三种典型采样策略: 隐私风险 文章第5页第二段中提到的 memorized training e ...

  4. 成功解决 ValueError: feature_names mismatch training data did not have the following fields

    成功解决 ValueError: feature_names mismatch training data did not have the following fields 目录 解决问题 解决思路 ...

  5. Artificial Fingerprinting for Generative Models: Rooting Deepfake Attribution in Training Data(主动防御)

    一.论文信息 论文:Artificial Fingerprinting for Generative Models: Rooting Deepfake Attribution in Training ...

  6. [Transformer] LITv2(Fast Vision Transformers with HiLo Attention)

    Fast Vision Transformers with HiLo Attention 论文: https://arxiv.org/abs/2205.13213 代码(即将开源): GitHub - ...

  7. Transformer课程 业务对话机器人Rasa 3.x NLU Training Data

    Transformer课程 业务对话机器人Rasa 3.x NLU Training Data NLU Training Data NLU训练数据存储有关用户消息的结构化信息. 自然语言理解(NLU) ...

  8. 【论文阅读】Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data

    [论文阅读]Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data ...

  9. 【2020-CVPR-3D人体姿态估计】Cascaded Deep Monocular 3D Human Pose Estimation with Evolutionary Training Data

    Cascaded Deep Monocular 3D Human Pose Estimation with Evolutionary Training Data 题目:<基于进化训练数据的级联深 ...

  10. 3. deit——Training data-efficient image transformers distillation through

    deit是vit的改进,使用的网络框架基本一致. 主要参考:ViT和DeiT的原理与使用 - 知乎 参考:DeiT:使用Attention蒸馏Transformer 知识蒸馏中的教师网络,可以使用其他 ...

最新文章

  1. TP自动生成模块目录
  2. linux断开会话不中断进程,Linux screen 解决会话终止当前进程断开的问题
  3. python最基础_python的最基础的知识点
  4. windows7 docker mysql_DOCKER windows 7 详细安装教程
  5. python温度转换代码分析_Python温度转换实例分析
  6. Office365开发系列——开发一个全功能的Word Add-In
  7. Fast Paxos
  8. angular 错误处理_可能出什么问题了? 如何处理Angular中的错误
  9. 小甲鱼OD学习第18讲
  10. 红警2 csf文件解析 简体化
  11. 文件相似度比对工具的设计与实现
  12. 形式语言与自动机总结笔记
  13. 加拿大布兰登大学计算机专业,名校大揭底:布兰登大学到底怎么样?
  14. [渗透测试]ATTCK实战 | Vulnstack 红队(一)
  15. 青龙自动薅羊毛—【万年历】秒到
  16. 努力是为了让自己不平庸
  17. JAVA基础学习(二)
  18. AutoCAD 2019 常用命令速查手册
  19. Monte Carlo tree search 学习
  20. Go语言自学系列 | golang开发工具

热门文章

  1. 2020年android系统版本多少,2020年的Android系统会是什么样?
  2. php wamp一键环境包,phpwind本地环境一键安装包Wamp 5.0使用说明
  3. Excel VBA——两种获取使用最大行数的方法
  4. oracle sysdate毫秒,oracle systimestamp(sysdate)到毫秒
  5. word 2007 无法输入汉字,怎么办?
  6. CF100015B - Ball Painting
  7. java 断点跳到注释,一个空指针异常,代码如下,打了断点,一到“TOPICID”那里(在下方注释4那里)就抛异常-_-||...
  8. React+Echarts 实时数据监控刷新
  9. 【计算机视觉】BOF图像检索
  10. 网络攻击与防御-常用网络命令的使用