Learning Bounds for Importance Weighting

原论文地址:Learning Bounds for Importance Weighting

补充材料:Supplemental material

Abstract

通过Renyi熵给出了importance weighting方法的收敛的理论依据,并且据此提出了几种新的importance weight方法,还讨论了归一化weights的性质。

1 Introduction

现实世界中机器学习训练数据和测试数据样本的分布会有偏差。一个常见的修正方法叫做importance weighting,它通过给不同的训练样本的带价值赋予权重来平衡这种偏差。一种常见的权重形式是w(x)=P(x)/Q(x)w(x) = P(x)/Q(x)w(x)=P(x)/Q(x),其中PPP和QQQ分别是测试数据分布和训练样本分布,这样做可以得到泛化误差的无偏估计。但这样做会有一些问题,Figure 1中展示了importance weighting失败的例子。

目标数据和源数据都是两个相同的高斯分布,但标准差不同,用标准差之比σQ/σP\sigma_Q/\sigma_PσQ​/σP​表示importance weighting进行训练,当σQ/σP=0.3\sigma_Q/\sigma_P=0.3σQ​/σP​=0.3时表现不好,当σQ/σP=0.7\sigma_Q/\sigma_P=0.7σQ​/σP​=0.7时表现较好(两者分布越接近,误差越小)。许多文献表明importance weighting使用时需要比较谨慎并且强调需要找到收敛范围并且保证通过这种技术是可以学习的。

作者通过标准泛化边界证明,当权重有界时,important weighting可以成功。但这种条件不太实用,作者证明了即使权重不是有界的,在一个相对弱的条件,即权重的二阶矩有界时,也能保证收敛,这个条件与PPP和QQQ的Renyi熵有关。作者据此探索了其他reweighting的方法。

2 Preliminaries

2.1 Renyi Divergences

Renyi熵可以用来衡量两个分布之间的相关性,公式如下:

简单变形:

Importance Weight

PPP和QQQ的importance weight定义为w(x)=P(x)/Q(x)w(x) = P(x)/Q(x)w(x)=P(x)/Q(x),可以得到如下引理及证明(期望是关于QQQ的):

既然是关于Q的,那么期望很容易得到就是1。根据Renyi熵,二阶矩(平方的期望)可以表示如下:

方差就是平方的期望(二阶矩)减去期望的平方:

没加weights和加了weights的loss如下:

用Lh(x)L_h(x)Lh​(x)表示L(h(x),f(x))L(h(x), f(x))L(h(x),f(x)),那么由于非归一化的w(x)w(x)w(x)是无偏的,那么:

下面的引理给出了二阶矩的边界:

对于α=1\alpha=1α=1,不等式变为:

证明:

里面用到两个不等式,其中一个是赫德尔不等式。

3 LearningGuarantees-BoundedCase

当w(x)w(x)w(x)有界时,令M=supxw(x)=d∞(P∣∣Q)M=\text{sup}_xw(x)=d_\infin(P||Q)M=supx​w(x)=d∞​(P∣∣Q)(dα(P∣∣Q)d_\alpha(P||Q)dα​(P∣∣Q)关于α\alphaα单调递增),根据Hoeffding不等式,有以下命题:

上界MMM有可能很大,下面又给出了下面这个更友好一点的定理:

证明中用随机变量ZZZ表示w(x)Lh(x)−R(h)w(x)L_h(x)-R(h)w(x)Lh​(x)−R(h),那么ZZZ的方差:

根据Bernstein不等式得到:

将δ\deltaδ作为概率上界带入可整理得到下面的不等式以最低概率1−δ1-\delta1−δ成立:

再用一个简单的不等式变换得到:

这个结果对于任意的假设集都成立,特别地对于一个有限假设集α=1\alpha=1α=1有如下结果:

下面的命题给出了一个下界,说明了2阶的Renyi熵对于importance weighting收敛的重要意义:

Learning Guarantees - Unbounded Case

d∞(P∣∣Q)&lt;∞d_\infin(P||Q)&lt;\infind∞​(P∣∣Q)<∞的条件并不一定有效,下面讨论一些无界的例子。

4.1 Examples

对于下面的分布:

importance weights是无界的,2阶的Renyi熵:

对于σQ&gt;22σP\sigma_Q&gt;\frac{\sqrt2}{2}\sigma_PσQ​>22​​σP​,importance weights的方差是有界的,在Figure 1最右侧图中importance weights是无界的,但其二阶矩有界。但对于σQ=0.3σP\sigma_Q=0.3\sigma_PσQ​=0.3σP​学习就困难得多了。

然后又在高斯分布的例子上说为什么有时候importance weights会失败。同时,importance weights归一化有时也不能完全解决问题。

Importance weighting learning bounds - unbounded case

这里说明即使importance weights无界,只要二阶矩有界,那么泛化误差有界。

这种无界的情况下收敛的速率会略有下降(O(m−3/8)O(m^{-3/8})O(m−3/8) vs O(m−1/2)O(m^{-1/2})O(m−1/2))。

5 Alternative reweighting algorithms

这里介绍了如何找其他的weights策略u(x)u(x)u(x)来代替上面讨论的w(x)=P(x)/Q(x)w(x)=P(x)/Q(x)w(x)=P(x)/Q(x)。首先给出了下面的定理:

这是对w(x)w(x)w(x)和u(x)u(x)u(x)的偏差和二阶矩的一种权衡,可以由如下的优化问题表示:

作者给出了一种利用分位点确定uuu的方法:用q个分位点之间www的均值表示uuu。这样,当λ\lambdaλ比较小时,w(x)w(x)w(x)和u(x)u(x)u(x)的偏差项主导,那么分位点越多,uuu就越接近www;当λ\lambdaλ比较大时,uuu的方差项主导,越接近没有importance weighting的情况。另外,作者还介绍了一种通过threshold限制www的方法。Figure 2展示了改进的importance weight方法的结果。

6 Relationship between normalized and unnormalized weights

归一化的weights将www进行了限制,但是这样就不是无偏的了,另外在Section 4中提到的,会使得有些样本的www占主导地位。

7 Conclusion

本文利用Renyi熵在理论和实践上说明了权重有界和权重无界但二阶矩有界的情况下importance weight方法的可行性。另外提出了两种改进的Importance weighting方法。

【论文精读】Learning Bounds for Importance Weighting相关推荐

  1. 论文精读 Learning to Segment Object Candidates(一)

    Facebook AI Research 的文章,刚刚开源到github,代码: https://github.com/facebookresearch/deepmask .其开源代码主要来自于两篇文 ...

  2. 李沐论文精读: ResNet 《Deep Residual Learning for Image Recognition》 by Kaiming He

    目录 1 摘要 主要内容 主要图表 2 导论 2.1为什么提出残差结构 2.2 实验验证 3 实验部分 3.1 不同配置的ResNet结构 3.2 残差结构效果对比 3.3 残差结构中,输入输出维度不 ...

  3. 【VQ-VAE论文精读+代码实战】Neural Discrete Representation Learning

    [VQ-VAE论文精读+代码实战]Neural Discrete Representation Learning 0.前言 Abstract 1.Introduction(提出现有方法的问题并说明有哪 ...

  4. 【论文精读】Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

    [论文精读]Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting 针对未来的一个多步 ...

  5. 【论文精读】NeRF详解

    最近阅读了开启三维重建新纪元的经典文章<NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis>,接下 ...

  6. 【nature论文精读】Impedance-based forecasting of lithium-ion battery performance amid uneven usage

    [nature论文精读] Impedance-based forecasting of lithium-ion battery performance amid uneven usage 文章目录 [ ...

  7. 论文精读——基于机器学习的越南生活固体废弃物预测

    论文精读--基于机器学习的越南生活固体废弃物预测 Abstract 1. Introduction(partly) 2. ML - based models and applications for ...

  8. 论文精读——CenterNet :Objects as Points

    论文精读--CenterNet :Objects as Points 论文地址:https://arxiv.org/pdf/1904.07850.pdf 机构:UT Austin,UC Berkele ...

  9. 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso)

    文章目录 一.CLIP 1.1 简介 1.1.1 前言 1.1.2 模型结构 1.1.3 模型效果 1.1.3.1 对自然分布偏移的鲁棒性 1.1.3.2 StyleCLIP 1.1.3.3 CLIP ...

  10. 【推荐系统论文精读系列】(八)--Deep Crossing:Web-Scale Modeling without Manually Crafted Combinatorial Features

    文章目录 一.摘要 二.介绍 三.相关工作 四.搜索广告 五.特征表示 5.1 独立特征 5.2 组合特征 六.模型架构 6.1 Embedding层 6.2 Stacking层 6.3 Residu ...

最新文章

  1. Win32.Lioten.SG病毒
  2. MSSQL2005 手工盲注 总结
  3. 世界上最浪费时间的三件事
  4. 不信任的 .exe 怎么办,用 Windows 沙盒啊!
  5. solr5.5索引mysql数据(新手总结)
  6. 对于一颗完全二叉树,要求给所有节点加上一个pNext指针,指向同一层的相邻节点;如果当前节点已经是该层的最后一个节点,则将pNext指针指向NULL;给出程序实现,并分析时间复杂度和空间复杂度。
  7. 又是绩效考核时,KPI 和 OKR 到底怎么考?
  8. Springboot05整合FastJson优化输出
  9. Django—自定义分页
  10. Netty工作笔记0043---单Reactor多线程模式
  11. 变量 重复声明_JS:定义变量的var、let有何操作?(360°无死角)
  12. 使用threading多线程访问baidu,输出状态码及访问时间
  13. 推导飞机飞行动力学方程组
  14. html 百度地图坐标拾取,百度拾取坐标系统坐标反查是什么意思
  15. android 时钟动态图标,神奇的Android动态时钟/时间UI界面
  16. 网址或者app被入侵了怎么办?
  17. 基于神经网络的房价预测,python数据分析房价预测
  18. 通信天线建模与MATLAB仿真分析,通信天线建模与MATLAB仿真分析代码
  19. Python Pandas库 Series.dt.tz_localize()和 Series.dt.tz_convert()的简单使用
  20. [CF1603D] Artistic Partition——欧拉函数,线段树优化DP

热门文章

  1. 计算机最近被访问的文件夹,电脑复制文件夹提示“目标文件夹访问被拒绝”怎么办?[多图]...
  2. 陀螺世界脚本合集分享,autojs弹窗代码、autojs多选勾选代码
  3. xcode10及iOS12问题
  4. 什么是Web2.0(图解Web2.0)
  5. java中int型的取值范围_Java中int的取值范围
  6. 利用OPENCV为android开发畸变校正的JNI库
  7. TGA格式图片文件分析
  8. SQL学习笔记(05)_JOIN的类型与用法
  9. 小米如何安装magisk和太极阳(纯小白篇)
  10. CVE-2017-0199——首个Microsoft Office RTF漏洞