ECCV2018 , 在网络上训练一个mask，以适应新任务。

1.Introduction

Packnet通过迭代地剪枝再训练扩展网络学习新任务，然而真的有必要调整网络的全部参数吗？

基于这个idea，我们提出一个方法，在固定的backbone上学习一个实数mask，推断时转为二值。

好的初始化很重要----imgeNet上pretrained的就不错。

2.Related Work

LwF和EWC，这些方法的问题是不可能预计旧任务上的性能改变，因为网络的所有权重都是可变的。PackNet通过剪枝，确定对之前任务重要的权重，每个权重存一个额外信息。然而前者在domain变化大的时候性能损失大，后者随着可用参数变少而失效。

相似：PathNet，Residual Adapters，Deep Adaption Networks。对于CNN，我们学习新卷积，是已存在卷积的masked版。我们的方法只引入1 bit参数。我们发现学习task-specific layer和BN参数是没必要的。

一些其它的关于二值网络的研究...

3.Approach

为便于理解，先假设一个全连接线性模型 $y=Wx$ ，这个模型是已经训练好的，固定的。

实数mask $m^r$ ，大小等于 $W$ ;
训练时， $W$ 固定，训练 $m^r$ ，其反向传播公式如下：
将 $m^r$ 用阈值 $\tau$ 二值化，得任务K的mask $m$ ;
推断时 $y=(W\odot m)x$

可以对比一下全连接网络：

4.Experiments and Results

加了同imagnet，domain shifts很大的几个小数据集：Wikiart 和 Sketch等：指标为error。backbone为vgg-16。

对于packNet，顺序影响很大。而Piggyback甚至比单独网络效果还好，推测是正则化效应的结果。

Piggyback关闭的权重数量和层与数据集有关。

试了下大数据集Places365的附加：

不同backbone：

网络越深，我们的方法同Individual networks差距越大。在VGG16上可以做到比单独网络更好，但resnet 50 上不行。

为每个任务学习单独的BN参数，能在domain shift大的数据集上缩小同单独网络性能的gap。

5.Analysis

Does Initialization Matter？
确实
Learned sparsity and its distribution across network layers
数据集/网络，稀疏度实验。稀疏度度量了要在给定数据集上得到好性能，backbone网络需要的变化数。

简单的花所需变化少

层稀疏度实验

domain shift大的，稀疏度越大，说明要更改的权重越多。
Handling large input domain shifts
同imagenet的domain差距大的Wikiart，piggyback方法表现出同独立网络较大的性能差距。这可能是固定了BN参数造成的。

6.Results on Visual Decathlon & Semantic Segmentation

Visual Decathlon由十个分类任务组成，任务类型很广泛。每个类型的分类任务，根据准确率打分，满分10000。

还有个分割的实验，基础是15年的全卷积网络，VGG16微调IOU是61.08，piggyback则有61.41。

这说明piggyback可用于混合训练方案，比全网络微调更有竞争力。

论文阅读：Piggyback: Adapting a Single Network to Multiple Tasks by Learning to Mask Weights相关推荐

权重掩码单网络多任务：Piggyback: Adapting a Single Network to Multiple Tasks by Learning to Mask Weights
Piggyback:通过学习权重掩码,使单个网络适应多个任务 Abstract 1 Introduction 2 Related Work 3 Approach 4 Experiments and R ...
论文阅读11——《Mutual Boost Network for Attributed Graph Clustering》
是聚类让我们"聚类",我整理了部分深度图聚类代码,希望大家多多支持(GitHub代码):A-Unified-Framework-for-Deep-Attribute-Graph-C ...
论文阅读：Saliency-Guided Region Proposal Network for CNN Based Object Detection
论文阅读:Saliency-Guided Region Proposal Network for CNN Based Object Detection (1)Author (2)Abstract (3 ...
论文阅读Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift
论文阅读Batch Normalization: Accelerating Deep Network Training byReducing Internal Covariate Shift 全文翻译 ...
论文阅读笔记：Improving Attacks on Speck32 / 64 using Deep Learning
论文阅读笔记:Improving Attacks on Speck32 / 64 using Deep Learning 本文通过神经网络利用了减少轮数的 Speck 的差分性质.为此,作者对神经网络 ...
[基础论文阅读]QMIX: Monotonic Value Function Factorization for Deep Multi-agent Reinforcement Learning
[基础论文阅读]QMIX: Monotonic Value Function Factorization for Deep Multi-agent Reinforcement Learning 题目含 ...
【每日论文阅读】Collaborative Visual Inertial SLAM for Multiple Smart Phones
文章目录论文阅读:Collaborative Visual Inertial SLAM for Multiple Smart Phones 摘要主要贡献算法逻辑算法结果论文阅读:Collab ...
论文阅读：On Dynamic Resource Allocation for Blockchain Assisted Federated Learning over Wireless Channel
论文阅读:On Dynamic Resource Allocation for Blockchain Assisted Federated Learning over Wireless Channel ...
【论文阅读】Gait Quality Aware Network: Toward the Interpretability of Silhouette-Based Gait Recognition
Gait Quality Aware Network: Toward the Interpretability of Silhouette-Based Gait Recognition 摘要 Intr ...

论文阅读：Piggyback: Adapting a Single Network to Multiple Tasks by Learning to Mask Weights