本视觉Transformers（86M参数）在ImageNet上达到83.1％的top-1精度，蒸馏版本高达84.4%！优于ViT、RegNet和ResNet等，代码刚刚开源！

注：文末附【Transformer】学习交流群

Training data-efficient image transformers & distillation through attention

作者单位：Facebook AI, 索邦大学。注：其中一位也是DETR的作者之一
代码（不到一天，已经近200 star了）：https://github.com/facebookresearch/deit
论文：https://arxiv.org/abs/2012.12877

最近，显示出纯粹基于注意力的神经网络可解决图像理解任务，例如图像分类。但是，这些视觉transformers使用昂贵的基础架构预先接受了数亿个图像的训练，从而限制了它们在更大的社区中的应用。关于视觉Transformer，推荐看一下这个最新综述：华为等提出视觉Transformer：全面调研

在这项工作中，通过适当的训练计划，我们仅通过在Imagenet上进行训练即可生产出具有竞争力的无卷积transformers。我们不到三天就在一台计算机上对其进行了训练。我们的视觉transformers（86M参数）在ImageNet上无需外部数据即可达到83.1％的top-1精度（单幅评估）。我们共享我们的代码和模型，以加快社区在这方面的研究进展。

此外，我们介绍了特定于transformers的师生策略。它依靠蒸馏令token确保学生通过注意力向老师学习。我们展示了这种基于token的蒸馏的兴趣，尤其是在使用卷积网络作为教师时。这使我们能够报告与卷积网络相比在Imagenet（我们可以获得高达84.4％的准确性）和迁移到其他任务时具有竞争力的结果。

主要贡献：

实验结果

Transformer交流群

已建立CVer-Transformer微信交流群！想要进Transformer学习交流群的同学，可以直接加微信号：CVer5555。加的时候备注一下：Transformer+学校+昵称，即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号，可以快速了解到最新优质的CV论文。

Training data-efficient image transformers distillation through attention相关推荐

DeiT：Training data-efficient image transformers distillation through attention
这篇文章主要是通过一些训练策略和知识蒸馏来提升模型的训练速度和性能效果. 原文链接:Training data-efficient image transformers & distillat ...
语音识别论文：Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Arc
声明:我主要从事语音合成,对语音识别的学习主要出于兴趣.文章内容摘要如有错误,还望读者指出,共同学习进步. 欢迎关注微信公众号:低调奋进 Comparing the Benefit of Synth ...
GPT-2隐私泄露论文阅读：Extracting Training Data from Large Language Models
文章目录论文地址: 原文阐释: 渔樵问对: 原理梗概预防策略隐私策略这个新颖的攻击方式是什么? 三种典型采样策略: 隐私风险文章第5页第二段中提到的 memorized training e ...
成功解决 ValueError: feature_names mismatch training data did not have the following fields
成功解决 ValueError: feature_names mismatch training data did not have the following fields 目录解决问题解决思路 ...
Artificial Fingerprinting for Generative Models: Rooting Deepfake Attribution in Training Data（主动防御）
一.论文信息论文:Artificial Fingerprinting for Generative Models: Rooting Deepfake Attribution in Training ...
[Transformer] LITv2（Fast Vision Transformers with HiLo Attention）
Fast Vision Transformers with HiLo Attention 论文: https://arxiv.org/abs/2205.13213 代码(即将开源): GitHub - ...
Transformer课程业务对话机器人Rasa 3.x NLU Training Data
Transformer课程业务对话机器人Rasa 3.x NLU Training Data NLU Training Data NLU训练数据存储有关用户消息的结构化信息. 自然语言理解(NLU) ...
【论文阅读】Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data
[论文阅读]Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data ...
【2020-CVPR-3D人体姿态估计】Cascaded Deep Monocular 3D Human Pose Estimation with Evolutionary Training Data
Cascaded Deep Monocular 3D Human Pose Estimation with Evolutionary Training Data 题目:<基于进化训练数据的级联深 ...
3. deit——Training data-efficient image transformers distillation through
deit是vit的改进,使用的网络框架基本一致. 主要参考:ViT和DeiT的原理与使用 - 知乎参考:DeiT:使用Attention蒸馏Transformer 知识蒸馏中的教师网络,可以使用其他 ...

Training data-efficient image transformers distillation through attention

实验结果

Transformer交流群

Training data-efficient image transformers distillation through attention相关推荐

最新文章

热门文章