Learning Bounds for Importance Weighting

原论文地址：Learning Bounds for Importance Weighting

补充材料：Supplemental material

Abstract

通过Renyi熵给出了importance weighting方法的收敛的理论依据，并且据此提出了几种新的importance weight方法，还讨论了归一化weights的性质。

1 Introduction

现实世界中机器学习训练数据和测试数据样本的分布会有偏差。一个常见的修正方法叫做importance weighting，它通过给不同的训练样本的带价值赋予权重来平衡这种偏差。一种常见的权重形式是w(x)=P(x)/Q(x)w(x) = P(x)/Q(x)w(x)=P(x)/Q(x)，其中PPP和QQQ分别是测试数据分布和训练样本分布，这样做可以得到泛化误差的无偏估计。但这样做会有一些问题，Figure 1中展示了importance weighting失败的例子。

目标数据和源数据都是两个相同的高斯分布，但标准差不同，用标准差之比σQ/σP\sigma_Q/\sigma_PσQ/σP表示importance weighting进行训练，当σQ/σP=0.3\sigma_Q/\sigma_P=0.3σQ/σP=0.3时表现不好，当σQ/σP=0.7\sigma_Q/\sigma_P=0.7σQ/σP=0.7时表现较好（两者分布越接近，误差越小）。许多文献表明importance weighting使用时需要比较谨慎并且强调需要找到收敛范围并且保证通过这种技术是可以学习的。

作者通过标准泛化边界证明，当权重有界时，important weighting可以成功。但这种条件不太实用，作者证明了即使权重不是有界的，在一个相对弱的条件，即权重的二阶矩有界时，也能保证收敛，这个条件与PPP和QQQ的Renyi熵有关。作者据此探索了其他reweighting的方法。

2 Preliminaries

2.1 Renyi Divergences

Renyi熵可以用来衡量两个分布之间的相关性，公式如下：

简单变形：

Importance Weight

PPP和QQQ的importance weight定义为w(x)=P(x)/Q(x)w(x) = P(x)/Q(x)w(x)=P(x)/Q(x)，可以得到如下引理及证明（期望是关于QQQ的）：

既然是关于Q的，那么期望很容易得到就是1。根据Renyi熵，二阶矩（平方的期望）可以表示如下：

方差就是平方的期望（二阶矩）减去期望的平方：

没加weights和加了weights的loss如下：

用Lh(x)L_h(x)Lh(x)表示L(h(x),f(x))L(h(x), f(x))L(h(x),f(x))，那么由于非归一化的w(x)w(x)w(x)是无偏的，那么：

下面的引理给出了二阶矩的边界：

对于α=1\alpha=1α=1，不等式变为：

证明：

里面用到两个不等式，其中一个是赫德尔不等式。

3 LearningGuarantees-BoundedCase

当w(x)w(x)w(x)有界时，令M=supxw(x)=d∞(P∣∣Q)M=\text{sup}_xw(x)=d_\infin(P||Q)M=supxw(x)=d∞(P∣∣Q)（dα(P∣∣Q)d_\alpha(P||Q)dα(P∣∣Q)关于α\alphaα单调递增），根据Hoeffding不等式，有以下命题：

上界MMM有可能很大，下面又给出了下面这个更友好一点的定理：

证明中用随机变量ZZZ表示w(x)Lh(x)−R(h)w(x)L_h(x)-R(h)w(x)Lh(x)−R(h)，那么ZZZ的方差：

根据Bernstein不等式得到：

将δ\deltaδ作为概率上界带入可整理得到下面的不等式以最低概率1−δ1-\delta1−δ成立：

再用一个简单的不等式变换得到：

这个结果对于任意的假设集都成立，特别地对于一个有限假设集α=1\alpha=1α=1有如下结果：

下面的命题给出了一个下界，说明了2阶的Renyi熵对于importance weighting收敛的重要意义：

Learning Guarantees - Unbounded Case

d∞(P∣∣Q)<∞d_\infin(P||Q)<\infind∞(P∣∣Q)<∞的条件并不一定有效，下面讨论一些无界的例子。

4.1 Examples

对于下面的分布：

importance weights是无界的，2阶的Renyi熵：

对于σQ>22σP\sigma_Q>\frac{\sqrt2}{2}\sigma_PσQ>22σP，importance weights的方差是有界的，在Figure 1最右侧图中importance weights是无界的，但其二阶矩有界。但对于σQ=0.3σP\sigma_Q=0.3\sigma_PσQ=0.3σP学习就困难得多了。

然后又在高斯分布的例子上说为什么有时候importance weights会失败。同时，importance weights归一化有时也不能完全解决问题。

Importance weighting learning bounds - unbounded case

这里说明即使importance weights无界，只要二阶矩有界，那么泛化误差有界。

这种无界的情况下收敛的速率会略有下降（O(m−3/8)O(m^{-3/8})O(m−3/8) vs O(m−1/2)O(m^{-1/2})O(m−1/2)）。

5 Alternative reweighting algorithms

这里介绍了如何找其他的weights策略u(x)u(x)u(x)来代替上面讨论的w(x)=P(x)/Q(x)w(x)=P(x)/Q(x)w(x)=P(x)/Q(x)。首先给出了下面的定理：

这是对w(x)w(x)w(x)和u(x)u(x)u(x)的偏差和二阶矩的一种权衡，可以由如下的优化问题表示：

作者给出了一种利用分位点确定uuu的方法：用q个分位点之间www的均值表示uuu。这样，当λ\lambdaλ比较小时，w(x)w(x)w(x)和u(x)u(x)u(x)的偏差项主导，那么分位点越多，uuu就越接近www；当λ\lambdaλ比较大时，uuu的方差项主导，越接近没有importance weighting的情况。另外，作者还介绍了一种通过threshold限制www的方法。Figure 2展示了改进的importance weight方法的结果。

6 Relationship between normalized and unnormalized weights

归一化的weights将www进行了限制，但是这样就不是无偏的了，另外在Section 4中提到的，会使得有些样本的www占主导地位。

7 Conclusion

本文利用Renyi熵在理论和实践上说明了权重有界和权重无界但二阶矩有界的情况下importance weight方法的可行性。另外提出了两种改进的Importance weighting方法。

【论文精读】Learning Bounds for Importance Weighting相关推荐

论文精读 Learning to Segment Object Candidates（一）
Facebook AI Research 的文章,刚刚开源到github,代码: https://github.com/facebookresearch/deepmask .其开源代码主要来自于两篇文 ...
李沐论文精读： ResNet 《Deep Residual Learning for Image Recognition》 by Kaiming He
目录 1 摘要主要内容主要图表 2 导论 2.1为什么提出残差结构 2.2 实验验证 3 实验部分 3.1 不同配置的ResNet结构 3.2 残差结构效果对比 3.3 残差结构中,输入输出维度不 ...
【VQ-VAE论文精读+代码实战】Neural Discrete Representation Learning
[VQ-VAE论文精读+代码实战]Neural Discrete Representation Learning 0.前言 Abstract 1.Introduction(提出现有方法的问题并说明有哪 ...
【论文精读】Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting
[论文精读]Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting 针对未来的一个多步 ...
【论文精读】NeRF详解
最近阅读了开启三维重建新纪元的经典文章<NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis>,接下 ...
【nature论文精读】Impedance-based forecasting of lithium-ion battery performance amid uneven usage
[nature论文精读] Impedance-based forecasting of lithium-ion battery performance amid uneven usage 文章目录 [ ...
论文精读——基于机器学习的越南生活固体废弃物预测
论文精读--基于机器学习的越南生活固体废弃物预测 Abstract 1. Introduction(partly) 2. ML - based models and applications for ...
论文精读——CenterNet :Objects as Points
论文精读--CenterNet :Objects as Points 论文地址:https://arxiv.org/pdf/1904.07850.pdf 机构:UT Austin,UC Berkele ...
李沐论文精读系列四：CLIP和改进工作串讲（LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso）
文章目录一.CLIP 1.1 简介 1.1.1 前言 1.1.2 模型结构 1.1.3 模型效果 1.1.3.1 对自然分布偏移的鲁棒性 1.1.3.2 StyleCLIP 1.1.3.3 CLIP ...
【推荐系统论文精读系列】(八)--Deep Crossing：Web-Scale Modeling without Manually Crafted Combinatorial Features
文章目录一.摘要二.介绍三.相关工作四.搜索广告五.特征表示 5.1 独立特征 5.2 组合特征六.模型架构 6.1 Embedding层 6.2 Stacking层 6.3 Residu ...

【论文精读】Learning Bounds for Importance Weighting