论文阅读:Piggyback: Adapting a Single Network to Multiple Tasks by Learning to Mask Weights
ECCV2018 , 在网络上训练一个mask,以适应新任务。
1.Introduction
Packnet通过迭代地剪枝再训练扩展网络学习新任务,然而真的有必要调整网络的全部参数吗?
基于这个idea,我们提出一个方法,在固定的backbone上学习一个实数mask,推断时转为二值。
好的初始化很重要----imgeNet上pretrained的就不错。
2.Related Work
LwF和EWC,这些方法的问题是不可能预计旧任务上的性能改变,因为网络的所有权重都是可变的。PackNet通过剪枝,确定对之前任务重要的权重,每个权重存一个额外信息。然而前者在domain变化大的时候性能损失大,后者随着可用参数变少而失效。
相似:PathNet,Residual Adapters,Deep Adaption Networks。对于CNN,我们学习新卷积,是已存在卷积的masked版。我们的方法只引入1 bit参数。我们发现学习task-specific layer和BN参数是没必要的。
一些其它的关于二值网络的研究...
3.Approach
为便于理解,先假设一个全连接线性模型,这个模型是已经训练好的,固定的。
- 实数mask ,大小等于;
- 训练时,固定,训练,其反向传播公式如下:
- 将用阈值二值化,得任务K的mask ;
- 推断时
可以对比一下全连接网络:
4.Experiments and Results
加了同imagnet,domain shifts很大的几个小数据集:Wikiart 和 Sketch等:指标为error。backbone为vgg-16。
对于packNet,顺序影响很大。而Piggyback甚至比单独网络效果还好,推测是正则化效应的结果。
Piggyback关闭的权重数量和层与数据集有关。
试了下大数据集Places365的附加:
不同backbone:
网络越深,我们的方法同Individual networks差距越大。在VGG16上可以做到比单独网络更好,但resnet 50 上不行。
为每个任务学习单独的BN参数,能在domain shift大的数据集上缩小同单独网络性能的gap。
5.Analysis
- Does Initialization Matter?
确实
- Learned sparsity and its distribution across network layers
数据集/网络,稀疏度实验。稀疏度度量了要在给定数据集上得到好性能,backbone网络需要的变化数。
简单的花所需变化少层稀疏度实验
domain shift大的,稀疏度越大,说明要更改的权重越多。 - Handling large input domain shifts
同imagenet的domain差距大的Wikiart,piggyback方法表现出同独立网络较大的性能差距。这可能是固定了BN参数造成的。
6.Results on Visual Decathlon & Semantic Segmentation
Visual Decathlon由十个分类任务组成,任务类型很广泛。每个类型的分类任务,根据准确率打分,满分10000。
还有个分割的实验,基础是15年的全卷积网络,VGG16微调IOU是61.08,piggyback则有61.41。
这说明piggyback可用于混合训练方案,比全网络微调更有竞争力。
论文阅读:Piggyback: Adapting a Single Network to Multiple Tasks by Learning to Mask Weights相关推荐
- 权重掩码单网络多任务:Piggyback: Adapting a Single Network to Multiple Tasks by Learning to Mask Weights
Piggyback:通过学习权重掩码,使单个网络适应多个任务 Abstract 1 Introduction 2 Related Work 3 Approach 4 Experiments and R ...
- 论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》
是聚类让我们"聚类",我整理了部分深度图聚类代码,希望大家多多支持(GitHub代码):A-Unified-Framework-for-Deep-Attribute-Graph-C ...
- 论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection
论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection (1)Author (2)Abstract (3 ...
- 论文阅读Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift
论文阅读Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift 全文翻译 ...
- 论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning
论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...
- [基础论文阅读]QMIX: Monotonic Value Function Factorization for Deep Multi-agent Reinforcement Learning
[基础论文阅读]QMIX: Monotonic Value Function Factorization for Deep Multi-agent Reinforcement Learning 题目含 ...
- 【每日论文阅读】Collaborative Visual Inertial SLAM for Multiple Smart Phones
文章目录 论文阅读:Collaborative Visual Inertial SLAM for Multiple Smart Phones 摘要 主要贡献 算法逻辑 算法结果 论文阅读:Collab ...
- 论文阅读:On Dynamic Resource Allocation for Blockchain Assisted Federated Learning over Wireless Channel
论文阅读:On Dynamic Resource Allocation for Blockchain Assisted Federated Learning over Wireless Channel ...
- 【论文阅读】Gait Quality Aware Network: Toward the Interpretability of Silhouette-Based Gait Recognition
Gait Quality Aware Network: Toward the Interpretability of Silhouette-Based Gait Recognition 摘要 Intr ...
最新文章
- 《电子基础与维修工具核心教程》——2.6 节点分压原理
- 预处理命令[#define]说明
- SAP CRM One order里user status和system status的mapping逻辑
- 异步导致UI句柄增加的解决办法
- isql 测试mysql连接_[libco] 协程库学习,测试连接 mysql
- boost学习之boost::shared_ptr
- Qt Creator 自动补齐变慢的解决
- python @的作用
- 【智能制造】智能制造能力成熟度评测三部曲
- PPT绘图导出高清图
- 使用ML 和 DNN 建模技巧总结
- 51CTO学院三周年-我的rhce7认证之路
- 55欧式空间02——正交矩阵、欧氏空间的同构
- 来看看最全的“css布局”喽
- JAVA程序员面试30问(附带答案)
- h5-浏览器点击跳转微信小程序或微信内部广告页(微信浏览器)跳转小程序的实现方法。
- #include tchar.h 是什么意思
- 系统间数据交互的方案探讨
- c语言字符串替换将you替换为we,C 实验_1字符串及基本输入输出.doc
- 三星I9300刷入锤子ROM图文教程
热门文章
- MongoDB-Java的两个基本操作Upsert和insertMany
- 计算机移动存储设备是,移动存储器在计算机操作系统安装中的应用
- 解决:npm ERR! code ELIFECYCLE npm ERR! errno 1
- 从键盘输入一个正整数,判断它是否为3和5的倍数,如果是,则输入yes,否则输出no。
- 为什么衡山派掌门人莫大先生一直没有婚娶
- 北京苹果店正门logo熄灯悼念 果粉献花纪哀思
- 微信小程序--云开发仿QQ动态发布(发布内容、图片)
- 谢欣伦 - OpenDev原创例程 - 网络摄像机WebCamera
- Latex合并单元格并文字居中
- Glade的简单使用说明+例子(一)