【论文笔记】DeiT论文阅读笔记
paper:Training data-efficient image transformers & distillation through attention
github:https://github.com/facebookresearch/deit
ViT训练有以下几点困难:
(1)需要大量GPU资源;
(2)需要大量数据,预训练数据集JFT-300M未公开;
(3)超参数设置不好不容易train出效果;
(4)只用ImageNet训练准确率不高(ViT-B top1 acc 77.91%)。
针对ViT难训练的问题,DeiT提出参数设置、数据增强、知识蒸馏来更有效地训练ViT。DeiT提出的训练方法成为后续ViT模型的训练标注。
声明:本文部分图片来自朱欤老师的【从零开始学transformer】课程。
一、知识蒸馏
1、soft distillation
下图为soft distillation的原理图(为什么叫soft? 因为教师模型输出的是概率值):
损失函数如下(y表示ground truth,表示学生模型的预测结果,表示教师模型的预测结果,是distillation输出的概率),学生和教师模型的预测损失函数为KLDivLoss。
2、Hard-label distillation
下图为hard distillation的原理图(为什么叫hard? 因为教师模型输出的是预测结果,argmax的输出):
损失函数如下,y表示ground truth,表示学生模型的预测结果,表示教师模型的预测结果(argmax的输出),学生和教师模型的预测损失函数为CELoss。
二、网络结构
DeiT网络结构与ViT高度类似,在ViT的基础上添加了distillation token,用于与教师网络计算损失。
DeiT训练过程中使用RegNetY-16GF作为教师模型(ImageNet top1 acc 82.9%),通过soft distillation和hard distillation实验,对transformer模型hard distillation性能较好。
三、训练细节
训练设置如下表所示,这些设置在后续出现的ViT模型中广泛使用。
【论文笔记】DeiT论文阅读笔记相关推荐
- [论文笔记] Oriented R-CNN 阅读笔记
Oriented R-CNN 阅读笔记 Oriented R-CNN for Object Detection(ICCV 2021) 摘要 引言 Oriented R-CNN Oriented RPN ...
- mysql笔记 doc_Mysql DOC阅读笔记
Mysql DOC阅读笔记 合理利用索引 隔离调试查询中花费高的部分,例如函数调用是在结果集中的行执行还是全表中的行执行 最小化全表扫描的数量,特别是在大表中 定期使用ANALYZE TABLE语句更 ...
- On the Generality of Facial Forgery Detection论文原文翻译以及阅读笔记
论文题目及原文地址:On the Generality of Facial Forgery Detection 2019IEEE第16届移动特设和传感器系统研讨会国际会议 摘要: 摘要-针对面部伪造检 ...
- CVPR2020开源论文(部分带阅读笔记)
参考:https://github.com/CaiYingFeng/CVPR2020-Paper-Code-Interpretation/blob/master/CVPR2020.md https:/ ...
- 现代php 阅读笔记,PHP 手册阅读笔记 - 语言参考篇
最近计划把 PHP手册,认真的先过一遍.记录一些以前不知道,不明确的知识. 语言参考 > 类型 [新认知]强制转换类型用 settype( mixed $var, string $type ). ...
- 【笔记】注意分配阅读笔记
1 注意的基本知识: 1.1 注意属于认知心理学的一部分.认知心理学是最新的心理学分支之一,它主要研究人的认知过程,包括注意.感知觉.表象.学习记忆.思维和语言等 人类知觉信息加工: 三个阶段:对外界 ...
- T-PAMI-2021论文Semi-Supervised Multi-View Deep Discriminant Representation Learning阅读笔记
提示:文 0.论文信息 题目:Semi-Supervised Multi-View Deep Discriminant Representation Learning 期刊: IEEE Transac ...
- 【阅读笔记】应用LRP,通过将相关性从模型的输出层反向传播到其输入层来解释基于RNN的DKT模型(一)
提示:Towards Interpretable Deep Learning Models for Knowledge Tracing将重点放在应用分层相关传播(LRP)方法,通过将相关性从模型的输出 ...
- 【裂缝检测】文献阅读笔记
本笔记仅供个人回顾使用,未经允许禁止转发 文献相关网站: 中国知网 iData 爱学术[中文文献友好] 一搜即达[科研通聚合搜索] SCI-Hub论文下载可用网址 谷歌学术『Google』镜像 谷歌学 ...
- 【笔记】文献阅读[SORT]-SIMPLE ONLINE AND REALTIME TRACKING
SORT: SIMPLE ONLINE AND REALTIME TRACKING 引言 2 文献综述 3 方法 3.1 检测 3.2 评估模型 3.3 数据关联 4 实验 4.1 指标 4.2 性能 ...
最新文章
- 2022-2028年中国锅炉行业投资分析及前景预测报告
- 一张图解析如何让img垂直居中对齐
- 学会python之后-学会Python后,人生简直开挂了!
- 自己动手写一个服务网关
- 上海应用物理所计算机,【中国科学报】上海应用物理所建立组合学原理DNA计算器原型...
- Linux 环境下vs2015 qt,QT5.8.0+MSVC2015安装以及环境配置(不需要安装VS2015)
- ios 控件切圆_iOS中 切圆角,任意几个角(带边框,不带边框)__OC和Swift版本 韩俊强的博客...
- clear与resize
- 绿坝老板不诚实,蒙骗政府官员
- 微信小程序的组件传值
- 栅格数据中的 Zone 与 Region
- 一套键鼠控制多台电脑操作——Synergy软件(windows环境)
- python买水果题_Python练习题4.9查询水果价格
- 基于Tensorflow框架的人脸活体检测、人脸属性总结附代码(持续更新)
- 如何在线压缩图片大小?图片上传太大怎么缩小?
- h3c服务器设置u盘引导,44-U盘启动
- guacamole SSH、TELNET建议配置中文无衬线等宽字体Noto Sans Mono CJK SC
- python 销售数据分析表格_python数据分析——医院销售数据实战案例
- Android尺寸标注设计大全和Android切图规范
- 逻辑Flask——Flask模板
热门文章
- 怎样实现在微信中直接下载APK
- dell服务器重装iso系统,戴尔R620安装windows2012R2过程和方法
- 《德鲁克管理思想精要》读书笔记11 - 管理你的下半生
- formula 返回list_Formula element (List)
- 数据库如何删除服务器文件,SqlServer数据库同时备份到两台服务器上(并自动删除过期文件)...
- 10000marker_嘉美生物-精准的DNA分子量标准 Marker。
- android onupgrade调用,Android Sqlite中常见的对于onUpgrade的处理方法
- python爬虫豆瓣电影评价_用python爬虫对豆瓣《战狼2》电影47万短评做词云
- 基于单幅图像的三维动物自动建模项目(The SMAL Model)学习笔记1
- PSNR SSIM BD-rate BD-PSNR