[论文翻译] Active Learning by Feature Mixing
论文地址:https://arxiv.org/abs/2203.07034
代码:https://github.com/aminparvaneh/alpha_mix_active_learning
发表于:CVPR 22
这里只对方法部分进行翻译
III. Methodology
A. Problem Definition
在不失一般性的情况下,我们认为我们的学习目标是训练一个有监督的多类分类问题,有KKK个类。一个学习者在与专家的交互迭代中被主动训练。在每个迭代中,这个主动学习者可以访问一小部分标记数据Dl={(xi,yi)}i=0M\mathcal{D}^{l}=\left\{\left(\boldsymbol{x}_{i}, y_{i}\right)\right\}_{i=0}^{M}Dl={(xi,yi)}i=0M,其中xi∈X\boldsymbol{x}_{i} \in \mathcal{X}xi∈X代表输入(例如一张图片或一个视频片段),yi∈{1,..,K}y_{i}∈\{1, . . , K\}yi∈{1,..,K}代表相关的类别标签。学习者还可以访问一组未标记的数据Du\mathcal{D}^{u}Du,从中选择BBB个实例,由专家进行标记。然后,被标记的样本被添加到Dl\mathcal{D}^{l}Dl中以更新模型。该模型的性能是在一个未见过的测试数据集上评估的。
学习器是一个深度神经网络f=fc⊙fef=f_{c} \odot f_{e}f=fc⊙fe,参数为θ={θe,θc}\boldsymbol{\theta}=\left\{\boldsymbol{\theta}_{e}, \boldsymbol{\theta}_{c}\right\}θ={θe,θc}。在这里,fe:X→RDf_{e}: \mathcal{X} \rightarrow \mathbb{R}^{D}fe:X→RD为backbone,它将输入编码到一个DDD维的潜在空间表示,即z=fe(x;θe)\boldsymbol{z}=f_{e}\left(\boldsymbol{x} ; \boldsymbol{\theta}_{e}\right)z=fe(x;θe)。此外,fc:RD→RKf_c: \mathbb{R}^{D} \rightarrow \mathbb{R}^{K}fc:RD→RK是一个分类器,例如多层感知机(MLP),它将实例从它们的表示形式映射到相应的logits,可以通过p(y∣z;θ)=softmax(fc(z;θc))p(y \mid \boldsymbol{z} ; \boldsymbol{\theta})=\operatorname{softmax}\left(f_{c}\left(\boldsymbol{z} ; \boldsymbol{\theta}_{c}\right)\right)p(y∣z;θ)=softmax(fc(z;θc))表示为类的风格。我们通过最小化标记集上的交叉熵损失来优化端到端参数:E(x,y)∼Dl[ℓ(fc⊙fe(x;θ),y)]\mathbb{E}_{(\boldsymbol{x}, y) \sim \mathcal{D}^{l}}\left[\ell\left(f_{c} \odot f_{e}(\boldsymbol{x} ; \boldsymbol{\theta}), y\right)\right]E(x,y)∼Dl[ℓ(fc⊙fe(x;θ),y)]。对一个不可见的实例的标签(即伪标签)的预测是yz∗=argmaxyfcy(z;θc)y_{\boldsymbol{z}}^{*}=\arg \max _{y} f_{c}^{y}\left(\boldsymbol{z} ; \boldsymbol{\theta}_{c}\right)yz∗=argmaxyfcy(z;θc)其中z=fe(x;θe)\boldsymbol{z}=f_{e}\left(\boldsymbol{x} ; \boldsymbol{\theta}_{e}\right)z=fe(x;θe)和fcyf_c^yfcy是yyy类的logit输出。此外,预测标签的logit被表示为fc∗(z):=fcyz∗(z)f_{c}^{*}(\boldsymbol{z}):=f_{c}^{y_{z}^{*}}(\boldsymbol{z})fc∗(z):=fcyz∗(z)。我们也表示Zu={fe(x),∀x∈Du}\boldsymbol{Z}^{u}=\left\{f_{e}(\boldsymbol{x}), \forall \boldsymbol{x} \in \mathcal{D}^{u}\right\}Zu={fe(x),∀x∈Du}为无标记数据表示集,Zl\boldsymbol{Z}^{l}Zl为有标记数据表示集。我们计算每个类的标记样本的平均表征z⋆\boldsymbol{z}^{\star}z⋆,并称之为锚。所有类的锚形成锚集Z⋆\boldsymbol{Z}^{\star}Z⋆,并作为已标记实例的代表。
B. Feature Mixing
潜在空间的特征在识别最有价值的待标注样本方面起着关键作用。我们的直觉是,模型的错误预测主要是由于输入中无法识别的新的"特征"。因此,我们通过首先探测模型学到的特征来处理AL问题。为此,我们使用特征的凸组合(即插值)作为探索每个未标记点附近的新特征的方法。具体来说,我们认为我们在未标记实例和标记实例之间的插值,分别为zuz^uzu和z⋆z^{\star}z⋆ (为了清楚起见,我们在这里使用标记的锚)为z~α=αz⋆+(1−α)zu\tilde{z}_{\alpha}=\alpha z^{\star}+(1-\alpha) z^{u}z~α=αz⋆+(1−α)zu,其中插值率α∈[0,1)D\boldsymbol{\alpha} \in[0,1)^{D}α∈[0,1)D。这个过程可以看作是对新实例进行采样的一种方式,不需要明确地对有标签和无标签的实例的联合概率进行建模,即:z∼p(z∣zu,Z⋆,α)≡αz⋆+(1−α)zu,z⋆∼Z⋆\boldsymbol{z} \sim p\left(\boldsymbol{z} \mid \boldsymbol{z}^{u}, \boldsymbol{Z}^{\star}, \boldsymbol{\alpha}\right) \equiv \boldsymbol{\alpha} \boldsymbol{z}^{\star}+(1-\boldsymbol{\alpha}) \boldsymbol{z}^{u}, \quad \boldsymbol{z}^{\star} \sim \boldsymbol{Z}^{\star} z∼p(z∣zu,Z⋆,α)≡αz⋆+(1−α)zu,z⋆∼Z⋆ 我们考虑用所有代表不同类别的锚点来插值一个无标签的实例,通过考虑模型的预测如何变化来发现足够明显的特征。为此,我们调查了无标签实例的伪标签(即y⋆y^{\star}y⋆)的变化以及插值所产生的损失。我们期望一个足够小的插值与标记的数据应该不会对每个未标记的点的预测标签产生相应的影响。
使用一阶泰勒展开(zuz^uzu),模型在预测无标签实例与有标签实例插值时的伪标签的损失可以改写为:ℓ(fc(z~α),y∗)≈ℓ(fc(zu),y∗)+(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗)\begin{aligned} \ell\left(f_{c}\left(\tilde{\boldsymbol{z}}_{\boldsymbol{\alpha}}\right), y^{*}\right) \approx & \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right)+\\ &\left(\boldsymbol{\alpha}\left(\boldsymbol{z}^{\star}-\boldsymbol{z}^{u}\right)\right)^{\boldsymbol{\top}} \cdot \nabla_{\boldsymbol{z}^{u}} \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right) \end{aligned} ℓ(fc(z~α),y∗)≈ℓ(fc(zu),y∗)+(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗) 对于一个足够小的α\boldsymbol{\alpha}α,例如∥α∥≤ϵ\|\boldsymbol{\alpha}\| \leq \epsilon∥α∥≤ϵ,几乎是精确的。因此,对于完整的标记集,通过选择两边的最大损失,我们有:maxz⋆∼Z⋆[ℓ(fc(z~α),y∗)]−ℓ(fc(zu),y∗)≈maxz⋆∼Z⋆[(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗)]\begin{aligned} \max _{\boldsymbol{z}^{\star} \sim \boldsymbol{Z}^{\star}} & {\left[\ell\left(f_{c}\left(\tilde{\boldsymbol{z}}_{\boldsymbol{\alpha}}\right), y^{*}\right)\right]-\ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right) \approx } \\ & \max _{\boldsymbol{z}^{\star} \sim \boldsymbol{Z}^{\star}}\left[\left(\boldsymbol{\alpha}\left(\boldsymbol{z}^{\star}-\boldsymbol{z}^{u}\right)\right)^{\top} \cdot \nabla_{\boldsymbol{z}^{u}} \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right)\right] \end{aligned} z⋆∼Z⋆max[ℓ(fc(z~α),y∗)]−ℓ(fc(zu),y∗)≈z⋆∼Z⋆max[(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗)] 直观地说,在进行插值时,损失的变化与两个条件成正比:
- (a)z∗z^{*}z∗和zuz^{u}zu的特征之差与它们的插值α\boldsymbol{\alpha}α成正比
- (b)损失的梯度与未标记的实例的关系
前者决定了哪些特征是新的,以及它们的价值在有标签和无标签的实例之间如何不同。另一方面,后者决定了模型对这些特征的敏感性。也就是说,如果有标签的实例和无标签的实例的特征完全不同,但模型是合理一致的,那么损失最终没有变化,因此这些特征不被认为是模型的新特征。
α\boldsymbol{\alpha}α的选择是针对输入的,决定了要选择的特征。因此,在第3.C节中,我们介绍了寻找α\boldsymbol{\alpha}α合适值的闭式解决方案。最后,我们注意到这里利用的插值法有一些有趣的特性,将在支撑材料中进一步讨论。
C. Optimising the Interpolation Parameter α\alphaα
由于手动选择α\boldsymbol{\alpha}α的值是不容易的,我们设计了一个简单的优化方法,为一个给定的未标记的实例选择适当的值。为此,我们注意到,从公式(3)中可以看出,当我们选择α\boldsymbol{\alpha}α使插值点的损失最大化时,是损失变化最大的最坏情况(细节见支撑材料)。然而,利用公式(3)的等号右侧,我们设计了一种新的公式(3),我们设计出选择α\boldsymbol{\alpha}α的目标为:α∗=argmax∥α∥≤ϵ(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗)\boldsymbol{\alpha}^{*}=\underset{\|\boldsymbol{\alpha}\| \leq \epsilon}{\arg \max }\left(\boldsymbol{\alpha}\left(\boldsymbol{z}^{\star}-\boldsymbol{z}^{u}\right)\right)^{\top} \cdot \nabla_{\boldsymbol{z}^{u}} \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right) α∗=∥α∥≤ϵargmax(α(z⋆−zu))⊤⋅∇zuℓ(fc(zu),y∗) 其中ϵ\epsilonϵ是管理混合程度的一个超参数。直观地说,这种优化为每个未标记的实例和锚点选择了最难的α\boldsymbol{\alpha}α情况。我们使用二范数公式对这个优化的解决方案进行近似,在使用二范数的情况下,可以得到:α∗≈ϵ∥(z⋆−zu)∥2∇zuℓ(fc(zu),y∗)∥∇zuℓ(fc(zu),y∗)∥2⊘(z⋆−zu)\boldsymbol{\alpha}^{*} \approx \epsilon \frac{\left\|\left(\boldsymbol{z}^{\star}-\boldsymbol{z}^{u}\right)\right\|_{2} \nabla_{\boldsymbol{z}^{u}} \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right)}{\left\|\nabla_{\boldsymbol{z}^{u}} \ell\left(f_{c}\left(\boldsymbol{z}^{u}\right), y^{*}\right)\right\|_{2}} \oslash\left(\boldsymbol{z}^{\star}-\boldsymbol{z}^{u}\right) α∗≈ϵ∥∇zuℓ(fc(zu),y∗)∥2∥(z⋆−zu)∥2∇zuℓ(fc(zu),y∗)⊘(z⋆−zu) 其中代表⊘\oslash⊘元素级的除法(进一步的细节详见附录)。这种近似方法使插值参数的优化变得有效,我们的实验表明,与直接优化插值参数相比,它不会对最终结果产生明显的不利影响。对最终结果的影响,而不是直接优化α\boldsymbol{\alpha}α,使损失最大化。
D. Candidate Selection
对于AL来说,根据公式(3),选择那些损失随着插值而大幅改变的实例进行查询是合理的。这对应于那些模型的预测发生变化并具有新特征的实例。直观地说,如图2(a)所示,这些样本被放置在潜在空间的决策边界附近。另外,当模型对输入特征的识别有合理的信心时,我们期望小的插值不应该影响模型的损失。然后,我们创建我们的候选集为:I={zu∈Zu∣∃z⋆∈Z⋆,fc∗(z~α)≠yzu∗}\mathcal{I}=\left\{\boldsymbol{z}^{u} \in \boldsymbol{Z}^{u} \mid \exists \boldsymbol{z}^{\star} \in \boldsymbol{Z}^{\star}, f_{c}^{*}\left(\tilde{\boldsymbol{z}}_{\boldsymbol{\alpha}}\right) \neq y_{\boldsymbol{z}^{u}}^{*}\right\} I={zu∈Zu∣∃z⋆∈Z⋆,fc∗(z~α)=yzu∗} 此外,在理想情况下,我们寻求多样化的样本,因为I\mathcal{I}I中的大多数实例可能是从同一区域选择的(即它们可能具有相同的新特征)。为此,我们建议将I\mathcal{I}I中的实例根据其特征的相似性分为BBB组,并进一步选择离每个组中心最近的样本,由专家进行标记。这就保证了I\mathcal{I}I样本所代表的空间密度可以通过B实例得到合理的近似。我们简单地使用k-MEANS,它被广泛使用。类似的策略也被[3]用来鼓励多样性。我们的方法在算法1中进行了总结。
[论文翻译] Active Learning by Feature Mixing相关推荐
- [论文翻译] Deep Learning
[论文翻译] Deep Learning 论文题目:Deep Learning 论文来源:Deep learning Nature 2015 翻译人:BDML@CQUT实验室 Deep learnin ...
- CLIP论文翻译、Learning Transferable Visual Models From Natural Language Supervision翻译
CLIP论文翻译.Learning Transferable Visual Models From Natural Language Supervision翻译 文章目录 CLIP论文翻译.Learn ...
- 知识蒸馏论文翻译(5)—— Feature Normalized Knowledge Distillation for Image Classification(图像分类)
知识蒸馏论文翻译(5)-- Feature Normalized Knowledge Distillation for Image Classification(图像分类) 用于图像分类的特征归一化知 ...
- [论文翻译]Deep learning
[论文翻译]Deep learning 论文题目:Deep Learning 论文来源:Deep Learning_2015_Nature 翻译人:BDML@CQUT实验室 Deep learning ...
- [论文翻译]Deep Learning 翻译及阅读笔记
论文题目:Deep Learning 论文来源:Deep Learning_2015_Nature 翻译人:BDML@CQUT实验室 Deep Learning Yann LeCun∗ Yoshua ...
- [论文翻译] Class-incremental learning: survey and performance evaluation on image classification
论文地址:https://arxiv.org/abs/2010.15277 代码:https://github.com/mmasana/FACIL 发表于:arXiv Oct 2020 省略了图.表的 ...
- 【论文翻译】Learning from Few Samples: A Survey 小样本学习综述
论文链接:https://arxiv.org/abs/2007.15484 摘要 Deep neural networks have been able to outperform humans in ...
- 【论文翻译】Learning Generalizable and Identity-Discriminative Representations for Face Anti-Spoofing
Abstract 由于人脸认证系统的高安全性需求,面部反欺骗(a.k.a演示攻击检测)已引起越来越多的关注.当训练和测试欺骗样本拥有相似的模式时,现有的基于CNN的方法通常很好地识别欺骗攻击,但它们的 ...
- 论文翻译:Learning Representations and Generative Models for 3D Point Clouds
摘要: 三维几何数据为研究表示学习和生成建模提供了一个很好的领域.在本文中,我们研究用点云表示的几何数据.介绍了一种具有最先进的重构质量和泛化能力的deep AutoEncoder (AE) 网络.学 ...
最新文章
- [JAVA EE] JPA 查询用法:自定义查询,分页查询
- MySQL RR隔离级别的更新冲突策略
- 增强的Internet域内网关路由协议
- 一个简单的struts的例子
- 常用元素位置与大小总结
- C# Winform中DataGridView的DataGridViewCheckBoxColumn CheckBox选中判断
- easyui datagrid 后台分页,前端如何处理
- machine learning学习笔记
- UVA 10601 Cubes
- PostgreSQL Oracle 兼容性之 - INDEX SKIP SCAN (递归查询变态优化) 非驱动列索引扫描优化...
- 基于JAVA+Servlet+JSP+MYSQL的学生宿舍卫生评分系统
- linux 程序调试日志,Linux程序调试
- Windows系统结构
- AD属性对照表 LDAP
- MySql 免费数据库管理工具
- win10专业版激活时提示无法连接到internet怎么办?
- 天然产物数据库综述:2020年从哪里找天然产物数据
- UE4 虚幻引擎上传或者复制项目,打包压缩时,需要保留的文件目录
- 解决系统提示:内存不能为“read”或written的办法
- 微软混合现实设备HoloLens 2惊艳发布,售价2.4万人民币
热门文章
- Matplotlib库Api整理
- mysql 5.5 client 字符集_MySQL 5.5.28字符集的设置_MySQL
- vue的computed单向绑定(如淘宝的购物车中使用)
- python中的scipy基础知识_Python机器学习(五十二)SciPy 基础功能
- mysql序列号生成_超详细的mysql数据库GTID介绍—概念、优缺点、原理、生命周期等
- Tr A 矩阵快速幂
- Python爬虫的智能化解析——Diffbot
- TensorFlow:tensorflow之CIFAR10与ResNet18实战
- 牛客 2021年度训练联盟热身训练赛第二场 B题
- test1 exam3编程计算图形的面积