基于回放单元的方法被大量研究证明能够有效缓解深度学习灾难性遗忘问题。基于回放单元方法的有效性取决于选择存储的样本是否有助于帮助避免遗忘。本篇介绍一种新方法,它通过可以预见的参数更新,来判断样本损失值受扰动的大小来选择重要样本。该方法被用于样本生成回放与经验回放两种场景。


1. Maximally Interfered Sampling from a Replay Memory

首先,介绍经验回放。

给定一个标准的目标函数min⁡θL(fθ(Xt),Yt)\min_{\theta}\mathcal{L}(f_{\theta}(\mathbf{X}_t), \mathbf{Y}_t)minθ​L(fθ​(Xt​),Yt​),此时接收到第ttt个样本Xt\mathbf{X}_tXt​,我们估计基于新batch对参数要做的更新θv=θ−α∇L(fθ(Xt),Yt)\theta^{v}=\theta-\alpha\nabla\mathcal{L}(f_{\theta}(\mathbf{X}_t),\mathbf{Y}_t)θv=θ−α∇L(fθ​(Xt​),Yt​),学习率为α\alphaα。

现在我们,根据值sMI−1(x)=l(fθv(x),y)−l(fθ(x),y)s_{M I-1}(x)=l(f_{\theta^{v}}(x),y)-l(f_{\theta}(x), y)sMI−1​(x)=l(fθv​(x),y)−l(fθ​(x),y)排序后,搜索前kkk个样本存入replay memory。

2. Maximally Interfered Sampling from a Generative Model

下面介绍利用生成模型产生回放经验的应用。

假定一个需要学习的函数fff由参数θ\thetaθ形式化,编码器qϕq_{\phi}qϕ​和解码器gγg_{\gamma}gγ​分别由参数ϕ\phiϕ与γ\gammaγ形式化。

根据1. Maximally Interfered Sampling from a Replay Memory一样的步骤计算参数可能的更新θv\theta^{v}θv。我们期望找到特征空间的数据点能够最大化如下公式(参数更新前与更新后的损失差):


为了估计上式的损失差,我们还需要估计y∗y^*y∗,类似于条件变分编码器里的条件,InfoGAN里的生成模型的类别输入。此处用ypre=fθ′(gγ(z))y_{pre}=f_{\theta'}(g_{\gamma}(z))ypre​=fθ′​(gγ​(z))和y^=fθv(gγ(z))\hat{y}=f_{\theta^v}(g_{\gamma}(z))y^​=fθv​(gγ​(z)),我们通过计算DKL(ypre∣∣y^)D_{KL}(y_{pre}||\hat{y})DKL​(ypre​∣∣y^​)来度量参数更新前后的损失差。表示用同一隐变量作为输入时,参数变化前与后的生成的样本的差别。

如果仅考虑生成样本的KL距离作为目标函数,那么模型会趋向于生成模棱两可的结果,以达到上面的最优。为了避免该情况,在KL距离后附加前一模型的H(ypre)H(y_{pre})H(ypre​),使生成的样本对于前一模型是可信的。

公式(2)有助于在可持续学习任务中生成有效的样本加速学习判别模型(避免灾难性遗忘问题),下面介绍如何生成有效样本加速学习生成模型(避免灾难性遗忘问题)。


End
by windSeS 2021-04-26

PRN(20210426):Online Continual Learning with Maximally Interfered Retrieval相关推荐

  1. PRN(20210426):GRAPH-BASED CONTINUAL LEARNING(ICLR2021)

    @article{tang2021graph-based,title={Graph-Based Continual Learning},author={Tang, Binh and Matteson, ...

  2. PRN(20210421):Task-Free Continual Learning

    写这篇博客前,我又重新阅读了之前的博客( 利用突触智能实现连续学习|从原理到代码解析(人生好难呀!))的内容,以及文后的那段笔(tu)记(cao).一直没有放弃关注增量式学习的近况,比如:最近ICLR ...

  3. PRN(20200908):Frosting Weights for Better Continual Training

    Zhu, Xiaofeng, et al. "Frosting Weights for Better Continual Training." 2019 18th IEEE Int ...

  4. 自监督学习系列(二):基于 Contrastive Learning

    对⽐学习属于⾃监督学习,所以对⽐学习是没有标签的.对⽐学习是通过构造正负样例来学习特征,如何构造正负样例对对⽐学习来说很重要. 对于⼀个输⼊样本x来说,存在与之相似的样本x+以及与之不相似的样本x-, ...

  5. 论文阅读笔记(1):Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

    Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation 原文链接:https://arxiv.org/pdf/1 ...

  6. 虚假新闻检测论文阅读(六):A Deep Learning Model for Early Detection of Fake News on Social Media

    论文标题:A Deep Learning Model for Early Detection of Fake News on Social Media 日期:IEEE2020 #半监督.#伪标签.#可 ...

  7. 强化学习系列(八):Planning and learning with Tabular Methods(规划和离散学习方法)

    一.前言 本章是对前面七章的一个总结归纳,前七章中我们首先介绍马尔科夫决策过程(MDP),而后介绍了求解环境模型已知的MDP的方法(model-based)--动态规划方法(DP),启发式搜索也属于这 ...

  8. PRN(20201231):驾驶人驾驶决策机制遵循最小作用量原理

    王建强, 郑讯佳, 黄荷叶. 驾驶人驾驶决策机制遵循最小作用量原理[J]. 中国公路学报, 2020, v.33;No.200(04):159-172. 观点: 为提升智能汽车的自主决策能力,使其能够 ...

  9. PRN(20200816):A Hierarchical Deep Convolutional Neural Network for Incremental Learning [Tree-CNN]

    Roy D , Panda P , Roy K . Tree-CNN: A Hierarchical Deep Convolutional Neural Network for Incremental ...

最新文章

  1. 哔哩哔哩软测三面,面试题复盘
  2. 过拟合曲线与早期停止法
  3. 拉取数据_Apache Kafka-数据写入过程
  4. 检索数据_9_返回的字段在某个范围内的数据
  5. Google发布新的TensorFlow物体检测API
  6. html5通过api调数据库,使用HTML5数据库API [关闭](Using HTML5 Database API [closed])
  7. Scanf连续调用多次并且存在%c的问题
  8. Magento Add Fee or Discount to Order Totals
  9. 中大计算机考研爆冷,中山大学计算机“爆冷”,321分排名第二,网友:“锦鲤”附体!...
  10. php header函数实例代码
  11. 关于鼓励软件产业和集成电路产业发展有关税收政策问题的通知
  12. c语言计算题怎么输出答案,C语言练习题答案
  13. MyBatis下载与简介
  14. 【考研数学】函数图像(三角函数、幂函数、指数函数等)
  15. 威富通移动支付开发文档
  16. 如何用电脑下载网页中的视频?
  17. CSS(二)——Flex布局 边框 渐变 过渡 动画
  18. matlab ftt图像压缩,求助 fft图像压缩程序问题
  19. 明比阅历浅,暗拼体力衰,指下讲武德,码上笑春风
  20. 国家公务员面试主要采取的是结构化的面试形式

热门文章

  1. 互联网及其应用——第一章 互联网概述
  2. 关于c3p0连接池使用xml配置出现的一些错误
  3. NGS 数据过滤之 Trimmomatic
  4. 【重点警惕】.locked1后缀--TellYouThePass勒索病毒家族旗下勒索病毒
  5. 【ESP8266-NodeMCU软硬串口通讯】
  6. vlc多媒体播放器VLC Media Player 3.0.7.1中文版
  7. 请牢记看小电影前一定要检查一下域名是不是 HTTPS 的,否则……
  8. Tomcat 的三种(bio,nio.apr) 高级 Connector 运行模式
  9. 与君共勉---在中学部学习收获
  10. linux监控某个端口流量抓包,tcpdump命令 – 监听网络流量