(ICML-2020)通过超球面的对齐和均匀性理解对比表示学习(一)
文章目录
- 通过超球面的对齐和均匀性理解对比表示学习
- Abstract
- 1. Introduction
- 2. Related Work
- 3.无监督对比表征学习的初步研究
- 4. Feature Distribution on the Hypersphere
- 4.1. Quantifying Alignment and Uniformity
- 4.1.1. ALIGNMENT
- 4.1.2. UNIFORMITY
- 4.2. Limiting Behavior of Contrastive Learning
- 参考文献
通过超球面的对齐和均匀性理解对比表示学习
paper题目:Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere
paper是MIT发表在ICML 2020的工作
paper地址:链接
Abstract
对比表征学习在实践中取得了显著的成功。在这项工作中,我们确定了与对比损失相关的两个关键特性:(1)正对特征的对齐(接近)和(2)超球面上(归一化)特征诱导分布的均匀性。我们证明,对比损失渐进地优化了这些属性,并分析了它们对下游任务的积极影响。根据经验,我们引入了一个可优化的度量来量化每个属性。在标准视觉和语言数据集上的大量实验证实了这两个指标和下游任务性能之间的强烈一致性。与对比学习相比,直接优化这两个指标可以在下游任务中获得相当或更好的表现。
项目页面: 链接
Code:链接
1. Introduction
最近大量的经验性工作都是在单位ℓ2\ell_{2}ℓ2规范约束下学习表征,有效地将输出空间限制在单位超球上,包括许多最近的无监督的对比表征学习方法。
直观地说,让这些特征存在于单位超球面上会产生一些令人满意的特征。在点积无处不在的现代机器学习中,固定范数向量可以提高训练的稳定性。此外,如果一个类的特征足够好地聚集,那么它们与其他特征空间(见图2)是线性可分离的,这是用于评估表示质量的常用标准。
图2:超球面。当类被很好地聚集在一起时(形成球状帽),它们是线性可分离的。这一点对于欧几里得空间来说并不成立。
虽然单位超球面是一个流行的特征空间选择,但并非所有映射到它的编码器都是平等的。最近的工作认为,表征应该另外对不必要的细节保持不变,并尽可能多地保留信息。我们把这两个属性称为对齐性和均匀性(见图1)。对齐性倾向于将相似的特征分配给相似的样本的编码者。均匀性更倾向于保留最大信息的特征分布,即单位超球上的均匀分布。
图 1:输出单位超球面上特征分布的对齐性和均匀性示意图。
在这项工作中,我们分析了对齐性和均匀性属性。我们表明,目前流行的对比表示学习形式实际上在无限负样本的限制下直接优化了这两个属性。我们提出了基于理论动机的对齐性和均匀性指标,并观察到它们与下游任务性能之间的一致性。值得注意的是,直接对这两个指标进行优化会获得与对比学习相当或更好的性能。
我们的主要贡献是:
- 我们提出了用于对齐性和均匀性的量化指标作为表征质量的两个度量,具有理论动机。
- 我们证明了对比损失渐近优化对齐性和均匀性。
- 根据经验,我们发现指标和下游任务性能之间有很强的一致性。
- 尽管形式简单,但我们提出的指标在没有其他损失的情况下直接优化时,凭经验在下游任务中与对比学习相比具有可比或更好的性能。
2. Related Work
无监督对比表征学习在图像和序列数据的表征学习方面取得了显著的成功。这些工作背后的共同动机是InfoMax原则,我们在这里将其实例化为最大化两个视图之间的互信息(MI)。然而,这种解释与实践中的实际行为不一致,例如,优化MI的更严格界限可能会导致更糟糕的表示。对比损失究竟是什么,在很大程度上仍是一个谜。基于潜在类别假设的分析提供了很好的理论见解,但不幸的是,与实证实践存在相当大的差距:代表性质量受到大量负面影响的结果与实证观察结果不一致。在本文中,我们从对齐性和均匀性的角度分析和描述了对比学习的行为,并用标准表征学习任务实证验证了我们的观点。
单位超球面上的表征学习。在对比学习之外,许多其他表征学习方法也将其特征标准化为单位超球面。在变分自编码器中,超球面潜在空间的性能优于欧几里德空间。我们知道,在单位超球面上直接匹配均匀采样点可以提供良好的表示,这与我们的直觉一致,即均匀性是一个理想的特性。Mettes等人(2019年)优化了单位超球面上的原型表示,以进行分类。超球面人脸嵌入的性能大大优于非正规化的人脸嵌入。它的经验成功表明,单位超球面确实是一个很好的特征空间。在这项工作中,我们正式研究了超球面几何和流行的对比表征学习之间的相互作用。
单位超球上的分布点。在单位超球上均匀分布点的问题是一个经过充分研究的问题。它通常被定义为对某一核函数的总势能最小化,例如,寻找电子最小静电势能配置的Thomson问题,以及Riesz s势能的最小化。我们提出的均匀性度量基于高斯势,它可以用来表示一类非常普遍的核,并且与普遍最优的点配置密切相关。此外,还讨论了超球面上的最佳填充问题。
3.无监督对比表征学习的初步研究
流行的无监督对比表征学习方法(本文中通常称为对比学习)从未标记的数据中学习表征。它假设了一种对正样本对进行采样的方法,表示应该具有相似表示的相似样本。根据经验,正样本对通常通过对同一样本的两个独立的随机增强版本获得,例如,同一图像的两个crops。
设pdata (⋅)p_{\text {data }}(\cdot)pdata(⋅)为Rn\mathbb{R}^{n}Rn上的数据分布,ppos (⋅,⋅)p_{\text {pos }}(\cdot, \cdot)ppos(⋅,⋅)为Rn×Rn\mathbb{R}^{n} \times \mathbb{R}^{n}Rn×Rn上正样本对的分布。基于实践经验,我们假设如下性质。
假定分布pdata p_{\text {data }}pdata和ppos p_{\text {pos }}ppos应满足
- 对称性:∀x,y,ppos (x,y)=ppos (y,x)\forall x, y, p_{\text {pos }}(x, y)=p_{\text {pos }}(y, x)∀x,y,ppos(x,y)=ppos(y,x)
- 匹配边缘:∀x,∫ppos (x,y)dy=pdata (x)\forall x, \int p_{\text {pos }}(x, y) \mathrm{d} y=p_{\text {data }}(x)∀x,∫ppos(x,y)dy=pdata(x)
我们考虑以下特定且广泛流行的对比损失形式来训练编码器f:Rn→Sm−1f: \mathbb{R}^{n} \rightarrow \mathcal{S}^{m-1}f:Rn→Sm−1,将数据映射到维度为mmm的ℓ2\ell_{2}ℓ2归一化特征向量。许多最近的表示学习方法已经证明这种损失是有效的。
其中τ>0\tau>0τ>0是标量温度超参数,M∈Z+M \in \mathbb{Z}_{+}M∈Z+是固定数量的负样本。
对比损失一词也通常用于指基于正面和负面样本的各种目标。在这项工作中,我们关注公式(1)中的具体形式,它在现代无监督对比表征学习文献中被广泛使用。
规范化的必要性。在没有范数约束的情况下,通过简单地缩放所有特征,softmax分布可以变得随机尖锐。Wang等人(2017年)对这种影响进行了分析,并论证了在交叉熵损失中使用特征向量点积时进行归一化的必要性,如在公式(1)中所述。在实验上,Chen等人(2020年)也表明,规范化输出会获得更好的表现。
InfoMax 原则。许多实证工作是由 InfoMax 原则推动的,即对于(x,y)∼ppos (x, y) \sim p_{\text {pos }}(x,y)∼ppos最大化I(f(x);f(y))I(f(x) ; f(y))I(f(x);f(y))。通常他们解释公式(1)中的Lcontrastive\mathcal{L}_{\text {contrastive}}Lcontrastive作为I(f(x);f(y))I(f(x) ; f(y))I(f(x);f(y))的下界。然而,众所周知,这种解释在实践中存在问题,例如,最大化更紧密的界限通常会导致下游任务性能更差。因此,我们没有将其视为界限,而是在以下部分中研究直接优化Lcontrastive\mathcal{L}_{\text {contrastive}}Lcontrastive的确切行为。
4. Feature Distribution on the Hypersphere
对比损失鼓励正样本对的学习特征表示相似,同时将随机采样的负样本对的特征推开。传统观点认为,表示应该提取正样本对之间共享的信息,并且对其他噪声因素保持不变。因此,损失应该优先考虑以下两个属性:
- 对齐性:形成正样本对的两个样本应该映射到附近的特征,因此(大部分)对不需要的噪声因子保持不变。
- 均匀性:特征向量应大致均匀分布在单位超球面Sm−1\mathcal{S}^{m-1}Sm−1上,尽可能多地保留数据信息。
为了凭经验验证这一点,我们将通过三种不同方法获得的S1(m=2)\mathcal{S}^{1}(m=2)S1(m=2)上的 CIFAR-10 表示可视化:
- 随机初始化。
- 监督预测学习:编码器和线性分类器从头开始联合训练,在监督标签上具有交叉熵损失。
- 无监督对比学习:编码器经过τ=0.5\tau=0.5τ=0.5 and M=256M=256M=256的Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive训练。
所有三个编码器都共享相同的基于AlexNet的架构,经过修改,可以将输入图像映射到S1\mathcal{S}^{1}S1中的二维向量。预测学习和对比学习都使用标准数据扩充来扩充数据集和正样本对。
图3总结了验证集特性的结果分布。事实上,来自无监督对比学习的特征(图3的底部)表现出最均匀的分布,并且紧密地聚集在正样本对中。
图3:S1\mathcal{S}^{1}S1上的CIFAR-10验证集表示。对齐分析:我们展示了正样本对特征之间的距离分布(两个随机增强)。均匀性分析:我们用R2\mathbb{R}^{2}R2中的高斯核密度估计(KDE)和Mises-Fisher(vMF)KDE绘制每个点(x,y)∈S1(x, y) \in \mathcal{S}^{1}(x,y)∈S1的角度(即arctan2(y,x)\arctan 2(y, x)arctan2(y,x))上的特征分布)。最右边的四个图显示了选定特定类别的特征分布。对比学习的表征既一致(具有较低的正配对特征距离),又均匀(在S1\mathcal{S}^{1}S1上均匀分布)。
Eqn(1) 中对比损失的形式也表明了这一点。我们在下面介绍非正式的论点,然后在第4.2节中进行更正式的处理。从ppp的对称性,我们可以导出
Lcontrastive (f;τ,M)=E(x,y)∼ppos [−f(x)⊤f(y)/τ]+E(x,y)∼ppos [log(ef(x)⊤f(y)/τ+∑ief(xi−)⊤f(x)/τ)]{xi−}i=1M∼pdata \begin{aligned} &\mathcal{L}_{\text {contrastive }}(f ; \tau, M)=\underset{(x, y) \sim p_{\text {pos }}}{\mathbb{E}}\left[-f(x)^{\top} f(y) / \tau\right] \\ &+\underset{(x, y) \sim p_{\text {pos }}}{\mathbb{E}}\left[\log \left(e^{f(x)^{\top} f(y) / \tau}+\sum_{i} e^{f\left(x_{i}^{-}\right)^{\top} f(x) / \tau}\right)\right] \\ &\quad\left\{x_{i}^{-}\right\}_{i=1}^{M} \sim p_{\text {data }} \end{aligned} Lcontrastive(f;τ,M)=(x,y)∼pposE[−f(x)⊤f(y)/τ]+(x,y)∼pposE[log(ef(x)⊤f(y)/τ+i∑ef(xi−)⊤f(x)/τ)]{xi−}i=1M∼pdata
因为∑ief(xi−)⊤f(x)/τ\sum_{i} e^{f\left(x_{i}^{-}\right)^{\top} f(x) / \tau}∑ief(xi−)⊤f(x)/τ项始终为正且有界在下方,所以损失有利于更小的E[−f(x)⊤f(y)/τ]\mathbb{E}\left[-f(x)^{\top} f(y) / \tau\right]E[−f(x)⊤f(y)/τ],即具有更多对齐的正样本对特征。假设编码器完全对齐,即P[f(x)=f(y)]=1\mathbb{P}[f(x)=f(y)]=1P[f(x)=f(y)]=1,那么最小化损失就相当于优化
KaTeX parse error: Undefined control sequence: \substack at position 12: \underset{\̲s̲u̲b̲s̲t̲a̲c̲k̲{x \sim p_{\tex…
这类似于使用 LogSumExp 变换最大化成对距离。直观地说,将所有特征彼此推开确实应该使它们大致均匀分布。
4.1. Quantifying Alignment and Uniformity
为了进一步分析,我们需要一种测量对齐和均匀性的方法。我们提出以下两个指标(损失)。
4.1.1. ALIGNMENT
对齐损失直接定义为正样本对之间的预期距离:
Lalign (f;α)≜−E(x,y)∼ppos [∥f(x)−f(y)∥2α],α>0\mathcal{L}_{\text {align }}(f ; \alpha) \triangleq-\underset{(x, y) \sim p_{\text {pos }}}{\mathbb{E}}\left[\|f(x)-f(y)\|_{2}^{\alpha}\right], \quad \alpha>0 Lalign(f;α)≜−(x,y)∼pposE[∥f(x)−f(y)∥2α],α>0
4.1.2. UNIFORMITY
我们希望均匀性度量在渐近上是正确的(即,优化该度量的分布应该收敛到均匀分布)并且在有限数量的点上经验上是合理的。为此,我们考虑高斯势核(也称为径向基函数 (RBF) 核)Gt:Sd×Sd→R+G_{t}: \mathcal{S}^{d} \times \mathcal{S}^{d} \rightarrow \mathbb{R}_{+}Gt:Sd×Sd→R+:
Gt(u,v)≜e−t∥u−v∥22=e2t⋅u⊤v−2t,t>0,G_{t}(u, v) \triangleq e^{-t\|u-v\|_{2}^{2}}=e^{2 t \cdot u^{\top} v-2 t}, \quad t>0, Gt(u,v)≜e−t∥u−v∥22=e2t⋅u⊤v−2t,t>0,
并将均匀性损失定义为平均成对高斯势的对数:
Luniform (f;t)≜logEx,y∼i.i.d pdata [Gt(u,v)],t>0,\mathcal{L}_{\text {uniform }}(f ; t) \triangleq \log \underset{x, y \underset{\text { i.i.d }}{\sim} p_{\text {data }}}{\mathbb{E}}\left[G_{t}(u, v)\right], \quad t>0, Luniform(f;t)≜logx,yi.i.d∼pdataE[Gt(u,v)],t>0,
其中ttt是一个固定参数。
平均成对高斯势与单位超球面上的均匀分布很好地联系在一起。
定义(Sd\mathcal{S}^{d}Sd上的均匀分布)。σd\sigma_{d}σd表示Sd\mathcal{S}^{d}Sd上的归一化表面积测量值。
首先,我们证明了均匀分布是最小化预期成对势的唯一分布。
命题1 对于Sd\mathcal{S}^{d}Sd上的Borel概率测度集M(Sd)\mathcal{M}\left(\mathcal{S}^{d}\right)M(Sd),σd\sigma_{d}σd是唯一解
minμ∈M(Sd)∫u∫vGt(u,v)dμdμ.\min _{\mu \in \mathcal{M}\left(\mathcal{S}^{d}\right)} \int_{u} \int_{v} G_{t}(u, v) \mathrm{d} \mu \mathrm{d} \mu . μ∈M(Sd)min∫u∫vGt(u,v)dμdμ.
此外,随着点的数量趋于无穷大,最小化平均成对势的点分布将weak∗weak^{*}weak∗收敛到均匀分布。回想一下weak∗weak^{*}weak∗的定义。
定义(weak∗weak^{*}weak∗收敛度量)。对于所有连续函数f:Rp→Rf: \mathbb{R}^{p} \rightarrow \mathbb{R}f:Rp→R,在Rp\mathbb{R}^{p}Rp中,{μn}n=1∞\left\{\mu_{n}\right\}_{n=1}^{\infty}{μn}n=1∞收敛到μ\muμ,我们有
limn→∞∫f(x)dμn(x)=∫f(x)dμ(x)\lim _{n \rightarrow \infty} \int f(x) \mathrm{d} \mu_{n}(x)=\int f(x) \mathrm{d} \mu(x) n→∞lim∫f(x)dμn(x)=∫f(x)dμ(x)
命题 2. 对于每个N>0N>0N>0,平均成对势的NNN点最小化器是
uN∗=argminu1,u2,…,uN∈Sd∑1≤i<j≤NGt(ui,uj)\mathbf{u}_{N}^{*}=\underset{u_{1}, u_{2}, \ldots, u_{N} \in \mathcal{S}^{d}}{\arg \min } \sum_{1 \leq i< j \leq N} G_{t}\left(u_{i}, u_{j}\right) uN∗=u1,u2,…,uN∈Sdargmin1≤i<j≤N∑Gt(ui,uj)
与{uN∗}N=1∞\left\{\mathbf{u}_{N}^{*}\right\}_{N=1}^{\infty}{uN∗}N=1∞序列相关的归一化计数度量将weak∗{ }^{*}∗收敛到σd\sigma_{d}σd。
设计一个通过均匀分布最小化的目标实际上是不平凡的。例如,平均成对点积或欧几里得距离可以简单地通过任何均值为零的分布进行优化。在达到最优一致性的核中,高斯核的特殊之处在于它与普遍最优点配置密切相关,也可以用来表示其他核的一般类别,包括 Riesz s-potentials。此外,如下所示,用高斯核定义的Luniform, \mathcal{L}_{\text {uniform, }}Luniform,与Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive有着密切的联系。
4.2. Limiting Behavior of Contrastive Learning
在本节中,我们将对比学习优化对齐性和均匀性的直觉形式化,并描述其渐近行为。我们考虑所有可测量编码器函数的优化问题,从Rn\mathbb{R}^{n}Rn中的pdata p_{\text {data }}pdata测量到 Borel 空间Sm−1\mathcal{S}^{m-1}Sm−1。
我们首先为这些指标定义最优性的概念。
定义(完美对齐)。如果f(x)=f(y)f(x)=f(y)f(x)=f(y)几乎肯定在(x,y)∼ppos (x, y) \sim p_{\text {pos }}(x,y)∼ppos上,我们说编码器fff是完全对齐的。
定义(完美的均匀性)。如果x∼pdata x \sim p_{\text {data }}x∼pdata的f(x)f(x)f(x)的分布是Sm−1\mathcal{S}^{m-1}Sm−1上的均匀分布σm−1\sigma_{m-1}σm−1,我们说编码器fff是完全均匀的。
完美均匀性的可实现性。我们注意到,并不总是可以实现完美的一致性,例如,当Rn\mathbb{R}^{n}Rn中的数据流形的维度低于特征空间Sm−1\mathcal{S}^{m-1}Sm−1时。此外,在pdata p_{\text {data }}pdata和ppos p_{\text {pos }}ppos是从有限数据集中采样增强样本形成的情况下,不可能有一个既完美对齐又完美均匀的编码器,因为完美对齐意味着来自单个元素的所有增强都具有相同的特征向量.尽管如此,在n≥n \geqn≥ m−1m-1m−1且pdata p_{\text {data }}pdata具有有界密度的条件下,确实存在完全一致的编码器函数。
我们用无限负样本分析渐近线。现有的实证工作已经确定,大量的负样本始终会导致更好的下游任务性能,并且经常使用非常大的值(例如,He et al. (2019) 中的 M = 65536)。以下定理很好地证实了优化关于限制损失确实需要对齐和均匀性。
定理 1(Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive的渐近线)。对于固定的τ>0\tau>0τ>0,随着负样本的数量M→∞M \rightarrow \inftyM→∞,(归一化)对比损失收敛到
limM→∞Lcontrastive (f;τ,M)−logM=−1τE(x,y)∼ppos [f(x)⊤f(y)]+Ex∼pdata [logEx−∼pdata [ef(x−)⊤f(x)/τ]].\begin{aligned} \lim _{M \rightarrow \infty} & \mathcal{L}_{\text {contrastive }}(f ; \tau, M)-\log M=\\ &-\frac{1}{\tau} \underset{(x, y) \sim p_{\text {pos }}}{\mathbb{E}}\left[f(x)^{\top} f(y)\right] \\ &+\underset{x \sim p_{\text {data }}}{\mathbb{E}}\left[\log \underset{x^{-} \sim p_{\text {data }}}{\mathbb{E}}\left[e^{f\left(x^{-}\right)^{\top} f(x) / \tau}\right]\right] . \end{aligned} M→∞limLcontrastive(f;τ,M)−logM=−τ1(x,y)∼pposE[f(x)⊤f(y)]+x∼pdataE[logx−∼pdataE[ef(x−)⊤f(x)/τ]].
我们有以下结果: 1. 如果fff完全对齐,则第一项最小化。 2. 如果存在完全一致的编码器,它们形成第二项的精确最小化器。 3. 对于上式中的收敛,与极限的绝对偏差在O(M−2/3)\mathcal{O}\left(M^{-2 / 3}\right)O(M−2/3)中衰减。
与Luniform \mathcal{L}_{\text {uniform }}Luniform的关系。补充材料中定理 1 的证明将渐近Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive形式与最小化平均成对高斯势联系起来,即最小化Luniform\mathcal{L}_{\text {uniform}}Luniform。与上式的第二项相比,Luniform \mathcal{L}_{\text {uniform }}Luniform本质上将log推到了外部期望之外,而没有改变最小化器(完全一致的编码器)。然而,由于其成对的性质,Luniform. \mathcal{L}_{\text {uniform. }}Luniform.在形式上要简单得多,并且避免了Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive中计算量大的 softmax 操作。
与特征分布熵估计的关系。当pdata p_{\text {data }}pdata在有限样本{x1,x2,…,xN}\left\{x_{1}, x_{2}, \ldots, x_{N}\right\}{x1,x2,…,xN}(例如,收集的数据集),上式中的第二项也可以看作是f(x)f(x)f(x)的重新代入熵估计量,其中xxx遵循生成{xi}i=1N\left\{x_{i}\right\}_{i=1}^{N}{xi}i=1N的基础分布pnature p_{\text {nature }}pnature,通过 von Mises-Fisher (vMF) 核密度估计 (KDE):
Ex∼pdata [logEx−∼pdata [ef(x−)⊤f(x)/τ]]=1N∑i=1Nlog(1N∑j=1Nef(xi)⊤f(xj)/τ)=1N∑i=1Nlogp^vMF−KDE(f(xi))+logZvMF≜−H^(f(x))+logZvMF,x∼pnature ≜−I^(x;f(x))+logZvMF,x∼pnature ,\begin{aligned} &\underset{x \sim p_{\text {data }}}{\mathbb{E}}\left[\log \underset{x^{-} \sim p_{\text {data }}}{\mathbb{E}}\left[e^{f\left(x^{-}\right)^{\top} f(x) / \tau}\right]\right]\\ &=\frac{1}{N} \sum_{i=1}^{N} \log \left(\frac{1}{N} \sum_{j=1}^{N} e^{f\left(x_{i}\right)^{\top} f\left(x_{j}\right) / \tau}\right)\\ &=\frac{1}{N} \sum_{i=1}^{N} \log \hat{p}_{\mathrm{vMF}-\mathrm{KDE}}\left(f\left(x_{i}\right)\right)+\log Z_{\mathrm{vMF}}\\ &\triangleq-\hat{H}(f(x))+\log Z_{\mathrm{vMF}}, \quad x \sim p_{\text {nature }}\\ &\triangleq-\hat{I}(x ; f(x))+\log Z_{\mathrm{vMF}}, \quad x \sim p_{\text {nature }}, \end{aligned} x∼pdataE[logx−∼pdataE[ef(x−)⊤f(x)/τ]]=N1i=1∑Nlog(N1j=1∑Nef(xi)⊤f(xj)/τ)=N1i=1∑Nlogp^vMF−KDE(f(xi))+logZvMF≜−H^(f(x))+logZvMF,x∼pnature≜−I^(x;f(x))+logZvMF,x∼pnature,
其中
p^vMF−KDE\hat{p}_{\mathrm{vMF}-\mathrm{KDE}}p^vMF−KDE是基于样本{f(xj)}j=1N\left\{f\left(x_{j}\right)\right\}_{j=1}^{N}{f(xj)}j=1N使用具有κ=τ−1\kappa=\tau^{-1}κ=τ−1的 vMF 内核的 KDE,
ZvMFZ_{\mathrm{vMF}}ZvMF是κ=τ−1\kappa=\tau^{-1}κ=τ−1的 vMF 归一化常数,
H^\hat{H}H^表示重新代入熵估计量
I^\hat{I}I^表示基于H^\hat{H}H^的互信息估计量,因为fff是确定性函数。
与 InfoMax 原则的关系。许多实证工作受到 InfoMax 原理的启发,即最大化I(f(x);f(y))I(f(x) ; f(y))I(f(x);f(y))对于(x,y)∼ppos(x, y) \sim p_{\text {pos}}(x,y)∼ppos。然而,已知将Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive解释为I(f(x);f(y))I(f(x) ; f(y))I(f(x);f(y))的下限与其在实践中的实际行为不一致。我们的结果反而分析了I(f(x);f(y))I(f(x) ; f(y))I(f(x);f(y))本身的特性。考虑恒等式I(f(x);f(y))=H(f(x))−H(f(x)∣f(y))I(f(x) ; f(y))=H(f(x))-H(f(x) \mid f(y))I(f(x);f(y))=H(f(x))−H(f(x)∣f(y)),我们可以看到虽然均匀性确实有利于大H(f(x))H(f(x))H(f(x)),对齐比仅仅希望小的H(f(x)∣f(y))H(f(x) \mid f(y))H(f(x)∣f(y))更强。相反,我们的上述分析表明 Lcontrastive \mathcal{L}_{\text {contrastive }}Lcontrastive针对对齐和信息保留编码器进行了优化。
最后,即使对于仅使用单个负样本的情况(即M=1M=1M=1),我们仍然可以证明较弱的结果。
参考文献
Mettes, P ., van der Pol, E., and Snoek, C. Hyperspherical prototype networks. In Advances in Neural Information Processing Systems, pp. 1485–1495, 2019.
Wang, F., Xiang, X., Cheng, J., and Y uille, A. L. Normface: L2 hypersphere embedding for face verification. In Proceedings of the 25th ACM international conference on Multimedia, pp. 1041–1049, 2017.
Chen, T., Kornblith, S., Norouzi, M., and Hinton, G. A simple framework for contrastive learning of visual representations. arXiv preprint arXiv:2002.05709, 2020.
He, K., Fan, H., Wu, Y ., Xie, S., and Girshick, R. Momentum contrast for unsupervised visual representation learning. arXiv preprint arXiv:1911.05722, 2019.
(ICML-2020)通过超球面的对齐和均匀性理解对比表示学习(一)相关推荐
- (ICML-2020)通过超球面的对齐和均匀性理解对比表示学习(二)
文章目录 通过超球面的对齐和均匀性理解对比表示学习 5. Experiments 6. Discussion 通过超球面的对齐和均匀性理解对比表示学习 paper题目:Understanding Co ...
- ICML 2020: 从Alignment 和 Uniformity的角度理解对比表征学习
Title: <Understanding Contrastive Representation Learning through Alignment and Uniformity on the ...
- ICML 2020论文贡献榜排名出炉:Google单挑斯坦福、MIT、伯克利;清华进TOP 20
来源:新智元 本文约2800字,建议阅读6分钟. ICML 2020论文贡献榜排名出炉,斯坦福则获高校第一.国内高校.企业上榜. [ 导读 ] ICML 2020论文贡献榜排名出炉,Google在众多 ...
- 【时间序列】ICML 2020 时间序列相关论文总结(附原文源码)
ICML 是 International Conference on Machine Learning的缩写,即国际机器学习大会.ICML如今已发展为由国际机器学习学会(IMLS)主办的年度机器学习国 ...
- 清华大四本科生2篇一作论文入选ICML 2020,后浪果然翻涌
白交 发自 凹非寺 量子位 报道 | 公众号 QbitAI ICML 2020放榜了. 入选论文创新高,共有1088篇论文突出重围. 然而,接收率却是一年比一年低,这次仅为21.8%(去年为22.6 ...
- 打开深度神经网络黑箱:竟是模块化的?图聚类算法解密权重结构 | ICML 2020
十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 深度神经网络这个黑箱子,似乎有了更清晰的轮廓. 我们都知道深度神经网络性能十分强大,但具体效果为什么这么好,权重为什么要这么分配,可能连&q ...
- ICML 2020 | Google提出最强生成式摘要预训练模型——天马
©PaperWeekly 原创 · 作者|蔡杰 学校|北京大学硕士生 研究方向|QA 论文标题:PEGASUS: Pre-training with Extracted Gap-sentences f ...
- ICML 2020 | 基于类别描述的文本分类模型
论文标题: Description Based Text Classification with Reinforcement Learning 论文作者: Duo Chai, Wei Wu, Qing ...
- 阿里 AI 研究成果入选国际顶会 ICML 2020,AI 推理速度提升 3 倍
近日,人工智能国际顶会ICML 2020公布了论文收录结果,阿里巴巴7篇论文入选,是入选论文数量最多的中国科技公司.ICML是机器学习领域全球最具影响力的学术会议之一,今年接受率仅为21.8%. 根据 ...
最新文章
- [BZOJ 1002] [FJOI 2007] 轮状病毒
- aarch64的TCR寄存器介绍
- 树莓派通过VNC连接时分辨率太低
- 2如何识别操作系统_扫描车牌识别车牌号的功能sdk
- 安装GIT(基于Ubuntu Desktop 12.04 LTS)
- oracle硬解析和软解析
- 微信客服系统开发SDK使用教程-给好友发消息任务
- 价值800元的原官方YM源码 二开苹果cms视频网站源码模板 无后门 完整版可以封装APP 免费分享给大家
- 用计算机弹让我做你的眼睛,让我做你的眼睛 (改编版)歌词
- 为什么计算机能读懂 1 和 0 ?
- 推送原理解析 极光推送使用详解
- 浏览器搜索去除广告项
- 裴蜀定理与扩展欧几里德算法
- Keil系列软件安装(二)Keil5 MDk
- html如何选择本地图片,Html5本地图片读取及裁剪
- mysql bitand函数_有趣的SQL(一)
- 正则表达式(regular expression)————以Qt为例
- 最新手机厂商Android kernel内核下载
- 真有意思,AI高引论文排行榜:OpenAI和DeepMind未进前十,旷视排第二?
- 金山文字也识Excel表格(转)
热门文章
- springboot某高校绩效考核管理设计与实现毕业设计论文012208
- 正则表达式大写转小写
- 开源云开发流量主小程序-AI写诗-CitizenFour
- Hibernate对象状态
- Linux怎么查看软件安装路径 查看mysql安装在哪
- 如何查看自己电脑上是否成功安装了Mysql,以及如何查看mysql的安装目录
- 对当前网上公开的聊天对话机器人语料整理
- 云计算对电子商务的应用优势
- 论文阅读_(GIN)How Powerful are Graph Neural Networks
- [激光原理与应用-65]:激光器-器件 - 多模光纤(宽频光纤)、单模光纤的原理与区别