paper:Training data-efficient image transformers & distillation through attention

github:https://github.com/facebookresearch/deit

ViT训练有以下几点困难:

(1)需要大量GPU资源;

(2)需要大量数据,预训练数据集JFT-300M未公开;

(3)超参数设置不好不容易train出效果;

(4)只用ImageNet训练准确率不高(ViT-B top1 acc 77.91%)。

针对ViT难训练的问题,DeiT提出参数设置、数据增强、知识蒸馏来更有效地训练ViT。DeiT提出的训练方法成为后续ViT模型的训练标注。

声明:本文部分图片来自朱欤老师的【从零开始学transformer】课程。 

一、知识蒸馏

1、soft distillation

下图为soft distillation的原理图(为什么叫soft? 因为教师模型输出的是概率值):

损失函数如下(y表示ground truth,表示学生模型的预测结果,表示教师模型的预测结果,是distillation输出的概率),学生和教师模型的预测损失函数为KLDivLoss。

2、Hard-label distillation

下图为hard distillation的原理图(为什么叫hard? 因为教师模型输出的是预测结果,argmax的输出):

损失函数如下,y表示ground truth,表示学生模型的预测结果,表示教师模型的预测结果(argmax的输出),学生和教师模型的预测损失函数为CELoss。

二、网络结构

DeiT网络结构与ViT高度类似,在ViT的基础上添加了distillation token,用于与教师网络计算损失。

DeiT训练过程中使用RegNetY-16GF作为教师模型(ImageNet top1 acc 82.9%),通过soft distillation和hard distillation实验,对transformer模型hard distillation性能较好。

三、训练细节

训练设置如下表所示,这些设置在后续出现的ViT模型中广泛使用。

【论文笔记】DeiT论文阅读笔记相关推荐

  1. [论文笔记] Oriented R-CNN 阅读笔记

    Oriented R-CNN 阅读笔记 Oriented R-CNN for Object Detection(ICCV 2021) 摘要 引言 Oriented R-CNN Oriented RPN ...

  2. mysql笔记 doc_Mysql DOC阅读笔记

    Mysql DOC阅读笔记 合理利用索引 隔离调试查询中花费高的部分,例如函数调用是在结果集中的行执行还是全表中的行执行 最小化全表扫描的数量,特别是在大表中 定期使用ANALYZE TABLE语句更 ...

  3. On the Generality of Facial Forgery Detection论文原文翻译以及阅读笔记

    论文题目及原文地址:On the Generality of Facial Forgery Detection 2019IEEE第16届移动特设和传感器系统研讨会国际会议 摘要: 摘要-针对面部伪造检 ...

  4. CVPR2020开源论文(部分带阅读笔记)

    参考:https://github.com/CaiYingFeng/CVPR2020-Paper-Code-Interpretation/blob/master/CVPR2020.md https:/ ...

  5. 现代php 阅读笔记,PHP 手册阅读笔记 - 语言参考篇

    最近计划把 PHP手册,认真的先过一遍.记录一些以前不知道,不明确的知识. 语言参考 > 类型 [新认知]强制转换类型用 settype( mixed $var, string $type ). ...

  6. 【笔记】注意分配阅读笔记

    1 注意的基本知识: 1.1 注意属于认知心理学的一部分.认知心理学是最新的心理学分支之一,它主要研究人的认知过程,包括注意.感知觉.表象.学习记忆.思维和语言等 人类知觉信息加工: 三个阶段:对外界 ...

  7. T-PAMI-2021论文Semi-Supervised Multi-View Deep Discriminant Representation Learning阅读笔记

    提示:文 0.论文信息 题目:Semi-Supervised Multi-View Deep Discriminant Representation Learning 期刊: IEEE Transac ...

  8. 【阅读笔记】应用LRP,通过将相关性从模型的输出层反向传播到其输入层来解释基于RNN的DKT模型(一)

    提示:Towards Interpretable Deep Learning Models for Knowledge Tracing将重点放在应用分层相关传播(LRP)方法,通过将相关性从模型的输出 ...

  9. 【裂缝检测】文献阅读笔记

    本笔记仅供个人回顾使用,未经允许禁止转发 文献相关网站: 中国知网 iData 爱学术[中文文献友好] 一搜即达[科研通聚合搜索] SCI-Hub论文下载可用网址 谷歌学术『Google』镜像 谷歌学 ...

  10. 【笔记】文献阅读[SORT]-SIMPLE ONLINE AND REALTIME TRACKING

    SORT: SIMPLE ONLINE AND REALTIME TRACKING 引言 2 文献综述 3 方法 3.1 检测 3.2 评估模型 3.3 数据关联 4 实验 4.1 指标 4.2 性能 ...

最新文章

  1. 2022-2028年中国锅炉行业投资分析及前景预测报告
  2. 一张图解析如何让img垂直居中对齐
  3. 学会python之后-学会Python后,人生简直开挂了!
  4. 自己动手写一个服务网关
  5. 上海应用物理所计算机,【中国科学报】上海应用物理所建立组合学原理DNA计算器原型...
  6. Linux 环境下vs2015 qt,QT5.8.0+MSVC2015安装以及环境配置(不需要安装VS2015)
  7. ios 控件切圆_iOS中 切圆角,任意几个角(带边框,不带边框)__OC和Swift版本 韩俊强的博客...
  8. clear与resize
  9. 绿坝老板不诚实,蒙骗政府官员
  10. 微信小程序的组件传值
  11. 栅格数据中的 Zone 与 Region
  12. 一套键鼠控制多台电脑操作——Synergy软件(windows环境)
  13. python买水果题_Python练习题4.9查询水果价格
  14. 基于Tensorflow框架的人脸活体检测、人脸属性总结附代码(持续更新)
  15. 如何在线压缩图片大小?图片上传太大怎么缩小?
  16. h3c服务器设置u盘引导,44-U盘启动
  17. guacamole SSH、TELNET建议配置中文无衬线等宽字体Noto Sans Mono CJK SC
  18. python 销售数据分析表格_python数据分析——医院销售数据实战案例
  19. Android尺寸标注设计大全和Android切图规范
  20. 逻辑Flask——Flask模板

热门文章

  1. 怎样实现在微信中直接下载APK
  2. dell服务器重装iso系统,戴尔R620安装windows2012R2过程和方法
  3. 《德鲁克管理思想精要》读书笔记11 - 管理你的下半生
  4. formula 返回list_Formula element (List)
  5. 数据库如何删除服务器文件,SqlServer数据库同时备份到两台服务器上(并自动删除过期文件)...
  6. 10000marker_嘉美生物-精准的DNA分子量标准 Marker。
  7. android onupgrade调用,Android Sqlite中常见的对于onUpgrade的处理方法
  8. python爬虫豆瓣电影评价_用python爬虫对豆瓣《战狼2》电影47万短评做词云
  9. 基于单幅图像的三维动物自动建模项目(The SMAL Model)学习笔记1
  10. PSNR SSIM BD-rate BD-PSNR