摘要

在大数据上学习为人工智能（AI）带来成功，但标注和训练成本昂贵。未来，在小数据上学习是人工智能的最终目的之一，它要求机器将依赖小数据的目标和场景识别如人类一样。一系列的机器学习模型正在以这种方式进行，如主动学习、小样本学习、深度聚类。然而，对于它们的泛化性能几乎没有理论保证。此外，它们的大多数设置是被动的，即标签分布由一个指定的采样场景显式控制。本综述遵循PAC（可能近似正确）框架下的不可知主动抽样，以有监督和无监督的方式分析小数据学习的泛化误差和标签复杂性。通过这些理论分析，我们从两个几何角度对小数据学习模型进行了分类：欧几里得和非欧几里德（双曲线）均值表示，并给出和讨论了它们的优化解。随后，总结了可能受益于小数据学习的一些潜在学习场景，并分析了它们的潜在学习场景。最后，还调查了一些具有挑战性的应用，如计算机视觉、自然语言处理，这些应用可能受益于对小数据的学习。

1. 引言

“那是一只睡在床上的猫，那男孩正在拍大象，那些人正在乘飞机，那是一架大飞机……”。“这是一个三岁的孩子在描述她看到的照片”——Fei-Fei Li说。她做了一个著名的演讲“我们如何教计算机理解图片”在2015年科技娱乐设计（TED）中。在现实世界中，人类只能根据自己的先验知识，通过一张图片来识别目标和场景。然而，机器可能需要更多。在过去几十年里，人工智能（AI）技术通过学习大数据帮助机器变得更像人类一样智能。通过建模人脑的神经元传播，建立了一系列表达AI系统，例如深蓝、AlphaGo。
当然，人工智能的天赋并不是天生的。大数据训练有助于Al识别不同的目标和场景。为了处理大数据，实施了一系列技术，例如MapReduce、Hadoop，以访问大规模数据，提取有用的信息以供AI决策。具体来说，MapReduce分布在多个异构集群中，Hadoop通过云提供商处理数据。然而，尽管我们采用了这些大数据处理技术，但训练和注释大规模数据的成本相当高。
“人工智能不再仅仅适用于大数据。”一种新颖的观点认为，小数据革命正在进行，以期望的性能对小数据进行训练是人工智能的最终目的之一。从技术上讲，人类专家希望缓解对大数据的需求，并为人工智能系统，尤其是深层神经网络的配置找到新的突破。这些低资源深度学习研究者已经实现了相关工作，包括有限标签、更少标签、更少数据等。从形式上讲，小样本学习被称为低资源学习，是一个研究信息有限的小数据的统一主题。根据Wang等人的调查，小样本学习的一个明确场景是特征生成，即通过给定的有限或不足信息生成人工特征。另一种具有隐含监管信息的场景更具挑战性，它依赖于使用那些信息丰富的示例（如私人数据）重新训练学习模型。从理论上讲，大多数小样本学习场景都是被动的，即标签分布由一个指定的采样场景明确控制。因此，在标签获取由学习算法或人类控制的地方，主动学习吸引了我们的眼球。
与小样本学习不同，主动学习的注释场景并不局限。由于期望的算法性能或耗尽的注释预算，一个主动学习算法可以随时停止其迭代采样。主动学习有两类：假设类上的主动抽样理论和实现场景上的主动取样算法，其中理论研究为这些算法范式提供了标签复杂性和收敛保证。典型的理论分析源自PAC（可能近似正确）风格，其针对的是不可知论背景，如。为了控制主动采样，存在一种搜索目标数据的误差不一致系数，它可以最大限度地更新假设，而这些更新需要积极和有用。因此，主动抽样也是一个假设修剪过程，它试图从给定的假设类中找到最优假设，其中假设是在类的决策边界上的版本空间中维持的。几何上，封闭类的版本空间通常嵌入管结构中，该结构与假定的球形类具有同胚拓扑。

1.1 动机和贡献

学习小数据对推进人工智能至关重要。作为一个先发制人的话题，小样本学习为有限的数据训练提供了探索。然而，小样本学习的设置是一个被动的场景，它规定了任务本身的标签信息不足。同时，其泛化性能的理论保证很少。这促使我们对小数据学习进行理论分析。利用主动采样理论，我们遵循PAC框架，为小数据学习提供了一组错误和标签复杂性边界。为了总结这些算法范例，我们将小数据学习模型分为：欧氏和双曲（非欧氏）表示，包括它们的深度学习场景。具体而言，本次调查的贡献总结如下。

我们提出了一个关于小数据学习的正式定义。这个定义是一个模型不可知的设置，它从机器学习的角度派生出一个更一般的概念。
从PAC的角度来看，我们是第一个通过主动抽样理论为小数据学习提供理论保证的人。给出了小数据学习的泛化误差和标签复杂度界。
从几何的角度，我们将小数据学习模型分为两类：欧氏表示和双曲表示，并分析了它们的优化求解器。
我们针对潜在的学习场景和现实世界中具有挑战性的应用，研究了一些小数据学习的新方向。

1.2 综述的PAC框架

1984年，Leslie Valiant提出了一个可能近似正确（PAC）的计算学习概念，它提出了在固定分布和参数假设下机器学习的数学分析。理论上，学习器需要通过观察收到的数据和标签，从候选假设类中选择一个泛化假设（也称为概念函数）。目的是将假设收敛到近似正确的泛化中，从而正确描述未发现样本的概率分布。PAC学习的一个关键内容是推导计算复杂性边界，如样本复杂性、泛化误差、Vapnik–Chervonenki（VC）维度。
在计算学习理论中，主动学习试图将候选无限概念类删减为最优假设，该假设与其标记的示例保持一致的性质。与典型PAC学习的主要区别在于，主动学习通过接收较少的训练数据来控制假设修剪。因此，主动学习能够发现与一小组标记示例一致的假设，可以被视为PAC学习的标准假设修剪。在这个框架下，我们提出了这项综述。

1.3 综述的组织

本综述的其余部分组织如下。第2节介绍了小数据学习的相关文献，包括小样本学习和主动学习。第3节给出了小数据学习的正式定义，并给出了其PAC分析，包括标签复杂性和泛化误差界。从几何角度来看，第4节介绍了小数据学习的欧几里德和非欧几里得范式，第5节介绍了相关的优化求解器。稍后，第6节讨论了学习小数据表示的潜在场景，第7节介绍了其具有挑战性的场景。然后，第8节介绍了一些关于小数据的有趣应用。第9节最终结束了本次综述。

2. 小样本学习与主动学习

小样本学习可以被视为在被动场景下学习小数据的先发制人主题。不同的是，主动学习也为小数据提供了解决方案，但带有主动采样场景。

2.1 小样本学习

找到与完整训练集一致的最优假设是机器学习对PAC的标准理论描述。收敛过程是在候选假设类中执行假设修剪。因此，固定几何区域的假设数量决定了假设空间的大小，从而影响了假设修剪的速度和成本。
给定一个具有样本 n n n的完整的训练集 X \mathcal{X} X，让 H \mathcal{H} H表示假设类， H \mathcal{H} H的VC维数界可以用来描述给定学习算法的假设剪枝收敛困难的复杂性。因此，我们遵循不可知主动学习，将 N ( H , n , k , A ) N(\mathcal{H},n,k,\mathcal{A}) N(H,n,k,A)定义为一类函数，它控制假设类 H \mathcal{H} H中学习算法 A \mathcal{A} A的收敛性，将n个训练样本与k个类相关联。
定义1。机器学习。从假设剪枝角度看，给定任何一个机器学习算法 A \mathcal{A} A，它的候选假设类用 H \mathcal{H} H来刻画，满足1）VC维边界 O ( 2 n ) \mathcal{O}(2^n) O(2n)，并且2）非零假设剪枝的安全一致界是 N ( H , n , k , A ) ≥ O ( k − 1 k n ) N(\mathcal{H},n,k,\mathcal{A})\geq\mathcal{O}(\frac{k-1}{k}n) N(H,n,k,A)≥O(kk−1n)，同时3）非零假设子空间的VC维数界是 O ( 2 n − 2 ( k − 1 ) n k ) . \mathcal{O}(2^n-2^\frac{(k-1)n}{k}). O(2n−2k(k−1)n).
请注意，统一界限旨在达到预期的复杂性，非零假设要求训练示例涵盖所有标签类别。给定任何一个类至少有 η \eta η个数据，一个安全保证满足 N ( H , n , k , A ) ≥ O ( n − η ) . N(\mathcal{H},n,k,\mathcal{A})\geq\mathcal{O}(n-\eta). N(H,n,k,A)≥O(n−η).为了统一评估 η ≈ O ( n k ) \eta\approx\mathcal{O}(\frac{n}{k}) η≈O(kn)在所有可能 η = 1 , 2 , 3 , ⋯ , n k \eta=1,2,3,\cdots,\frac{n}{k} η=1,2,3,⋯,kn上情况，非零假设简直的安全一致界是 O ( k − 1 k n ) . \mathcal{O}(\frac{k-1}{k}n). O(kk−1n).
假设 η ≪ n k \eta\ll\frac{n}{k} η≪kn，典型的机器学习场景就变成了小样本学习过程。
定义2。小样本学习。从假设剪枝的角度看，给定任何一个小样本学习算法 A \mathcal{A} A，它的候选假设类用 H \mathcal{H} H来刻画，满足1）VC维边界 O ( 2 n ) \mathcal{O}(2^n) O(2n)，并且2）非零假设剪枝的安全一致界是 N ( H , n , k , A ) ≥ O ( n − η ) N(\mathcal{H},n,k,\mathcal{A})\geq\mathcal{O}(n-\eta) N(H,n,k,A)≥O(n−η)，同时3）收缩为非零假设子空间的VC维界为 O ( 2 n − 2 n − η ) , \mathcal{O}(2^n-2^{n-\eta}), O(2n−2n−η),其中 2 n − 2 n − η ≥ k − 1 k n . 2^n-2^{n-\eta}\geq\frac{k-1}{k}n. 2n−2n−η≥kk−1n.
从定义2来看，小样本学习可以被视为具有有限监督信息的典型机器学习的特例。它的一个重要特征是非零假设空间的体积更紧因为 O ( 2 n − 2 n − η ) ≫ O ( k − 1 k n ) . \mathcal{O}(2^n-2^{n-\eta})\gg\mathcal{O}(\frac{k-1}{k}n). O(2n−2n−η)≫O(kk−1n).因此，与典型的机器学习相比，任何小样本学习算法都会导致更宽松的安全性约束，从而简化为非假设。
在可实现的设置中，一个典型的小样本学习场景是通过模型再训练生成特征。在这种情况下，学习算法通过使用先验知识对模型进行预训练，生成类似人类的手写特征，在达到预期性能之前，再训练不会停止。然而，在极少数情况下采用了学习模型的再训练，无法正确生成高度信任的特征。例如，小样本的一个特例是单样本学习，它只依赖于某些类中的一个数据；另一个更极端的例子是零样本学习，其中一些类不包含任何数据或标签。其详细定义如下。
定义3。单样本学习。从假设剪枝的角度看，给定任何一个单样本学习算法 A \mathcal{A} A，它的候选假设类用 H \mathcal{H} H来刻画，满足1）VC维边界 O ( 2 n ) \mathcal{O}(2^n) O(2n)，并且2）非零假设剪枝的安全一致界是 N ( H , n , k , A ) ≥ O ( n ) N(\mathcal{H},n,k,\mathcal{A})\geq\mathcal{O}(n) N(H,n,k,A)≥O(n)，同时3）收缩为非零假设子空间的VC维界为 O ( 2 n ) . \mathcal{O}(2^n). O(2n).
定义4。零样本学习。从假设剪枝的角度来看，给定任何零样本学习算法 A \mathcal{A} A，它的候选假设类用 H \mathcal{H} H来刻画，它满足1）VC维边界 O ( 2 n ) \mathcal{O}(2^n) O(2n)，2）剪枝为非空假设的不适用安全一致界，以及3）收缩为非空假定子空间的不适用VC维界。
通常，小样本也与弱监督学习有关，弱监督学习包括不完整、不准确、有噪声和异常值信息等。从这个角度来看，小样本学习可以被视为标签信息不完整的弱监督学习的一种特殊设置。不平衡学习、迁移学习、元学习等也与小样本学习有内在联系。然而，对于最优假设的收敛性没有理论分析。

2.2 主动学习

主动学习将候选假设类修剪成期望的收敛。修剪过程通常是通过查询那些信息量很大的更新来缩小假设空间。因此，主动学习的假设要求假设剪枝的任何更新都应该是非空的。在这里，我们给出了主动学习的定义。
定义5。主动学习。从假设剪枝的角度来看，给定任何主动学习算法 A \mathcal{A} A，查询预算是 Q \mathcal{Q} Q，它的候选假设类用 H \mathcal{H} H来刻画，它满足1）VC维边界 O ( 2 n ) \mathcal{O}(2^n) O(2n)，2）非零假设剪枝的安全一致界是 O ( 1 ) \mathcal{O}(1) O(1)，以及3）非零假设子空间的VC维数界是 O ( 2 Q ) \mathcal{O}(2^\mathcal{Q}) O(2Q)。
注意到，主动学习需要更新积极且非无效的假设。任何随后的假设都可以收敛到安全状态，从而得出安全统一界 O ( 1 ) \mathcal{O}(1) O(1)。与小样本学习不同，主动学习的场景由人类控制，人类总是对假设进行非零更新。因此，它的VC维数界比典型的机器学习和小样本学习更严格。为了找到可行的假设更新，主动学习总是使用误差不一致系数来控制假设修剪。
误差不一致。给定一个有限假设类 H \mathcal{H} H，主动学习迭代更新当前假设 h Q ∈ H h_\mathcal{Q}\in\mathcal{H} hQ∈H在t时刻进入最优假设 h ∗ ∈ H h^*\in\mathcal{H} h∗∈H。让一个主动学习算法 A \mathcal{A} A执行 Q \mathcal{Q} Q轮查询从 X \mathcal{X} X中，假设 ℓ ( ⋅ , ⋅ ) \ell(\cdot,\cdot) ℓ(⋅,⋅)表示使用多类设置将 X \mathcal{X} X映射为 Y \mathcal{Y} Y的损失，我们定义 Q \mathcal{Q} Q轮查询的总损失为 R ( h Q ) = ∑ i = 1 Q q t p i ℓ ( h ( x t ) , y t ) , R(h_\mathcal{Q})=\sum^\mathcal{Q}_{i=1}\frac{q_t}{p_i}\ell(h(x_t),y_t), R(hQ)=∑i=1Qpiqtℓ(h(xt),yt),其中 y t y_t yt代表 x t x_t xt的标签， q t q_t qt满足伯努利分布 q t ∈ { 0 , 1 } q_t\in\{0,1\} qt∈{0,1}，同时 1 p i \frac{1}{p_i} pi1表示采样 x t x_t xt的权重。在此设置下，采样过程随后采用误差不一致来控制假设更新：
θ A = E x t ∈ D sup ⁡ h ∈ b ( h ∗ , r ) { ℓ ( h ( x t ) , Y ) − ℓ ( h ∗ ( x t ) , Y ) r } , (1) \theta_\mathcal{A}=\mathbb{E}_{x_t\in\mathcal{D}}\sup_{h\in b(h^*,r)}\{ \frac{\ell(h(x_t),\mathcal{Y})-\ell(h^*(x_t),\mathcal{Y})}{r}\},\tag{1} θA=Ext∈Dh∈b(h∗,r)sup{rℓ(h(xt),Y)−ℓ(h∗(xt),Y)},(1)
其中 D \mathcal{D} D表示 X \mathcal{X} X上的边际分布，并得出候选假设。为了降低修剪过程的复杂性，可以从 X \mathcal{X} X的边际分布中缩小 D \mathcal{D} D，这导出了大多数假设，如[25]、[44]。
相应的， ℓ ( h ( x ) , h ′ ( x ) ) \ell(h(x),h'(x)) ℓ(h(x),h′(x))表示 h h h和 h ′ h' h′的假设不一致，可以指定为 Y \mathcal{Y} Y上的同类最佳错误
ℓ ( h ( x ) , h ′ ( x ) ) = ∣ max ⁡ y ∈ Y ℓ ( h ( x ) , y ) − ℓ ( h ′ ( x ) , y ) ∣ , (2) \ell(h(x),h'(x))=|\max_{y\in\mathcal{Y}}\ell(h(x),y)-\ell(h'(x),y)|,\tag{2} ℓ(h(x),h′(x))=∣y∈Ymaxℓ(h(x),y)−ℓ(h′(x),y)∣,(2)
其中 y ∈ Y y\in\mathcal{Y} y∈Y和 ℓ ( h ( x ) , h ′ ( x ) ) \ell(h(x),h'(x)) ℓ(h(x),h′(x))也可以被简写为 ℓ ( h , h ′ ) . \ell(h,h'). ℓ(h,h′).一旦假设更新，增加 x t x_t xt的误差大于 θ A \theta_\mathcal{A} θA，主动学习算法 A \mathcal{A} A固定 x t x_t xt作为一个重要的更新。除了等式（2）， ℓ ( h ( x ) , h ′ ( x ) ) \ell(h(x),h'(x)) ℓ(h(x),h′(x))也可以指定为类内误差，误差熵等等。

3. 近似推广分析

从假设修剪的角度，我们首先提出了一个更一般的小数据学习概念。然后，我们分别在有监督和无监督的情况下，对误差和标签复杂度界上的最优假设的收敛性进行了推广分析。

3.1 更一般的概念

对于不可知采样，任何假设 h ∈ H h\in\mathcal{H} h∈H能够达到 e r r ( h ) err(h) err(h)的一个泛化误差。在概率至少为 1 − δ 1-\delta 1−δ，经过 Q \mathcal{Q} Q次采样，如果 e r r ( h ) err(h) err(h)收敛到它的最优误差，根据[25]的定理1，存在一个上界 e r r ( h ) + c ( 1 Q ( d log ⁡ Q + log ⁡ 1 δ ) + e r r ( h ) Q Q ( d log ⁡ Q + log ⁡ 1 δ ) ) . err(h)+c\left(\frac{1}{\mathcal{Q}}(d\log\mathcal{Q}+\log\frac{1}{\delta})+\sqrt{\frac{err(h)}{\mathcal{Q}}\mathcal{Q}(d\log\mathcal{Q}+\log\frac{1}{\delta})}\right). err(h)+c(Q1(dlogQ+logδ1)+Qerr(h)Q(dlogQ+logδ1) ).
通过放松常 c c c和 e r r ( h ) ( e r r ( h ) < 1 ) err(h)(err(h)<1) err(h)(err(h)<1)，任何学习算法的标签复杂度都满足上界
N ( H , n , Q , A ) ≤ O ( 1 Q ( d log ⁡ Q + log ⁡ 1 δ ) ) . (3) N(\mathcal{H},n,\mathcal{Q},\mathcal{A})\leq\mathcal{O}\left(\frac{1}{\mathcal{Q}}(d\log\mathcal{Q}+\log\frac{1}{\delta})\right).\tag{3} N(H,n,Q,A)≤O(Q1(dlogQ+logδ1)).(3)
等式（3）给出了标签复杂性上界的粗粒度观察结果。接下来，我们引入误差不一致系数 θ A \theta_\mathcal{A} θA来修剪假设类。如果学习算法通过公式（1）控制假设更新，根据[25]的定理2， e r r ( h ) err(h) err(h)收敛的预期标签成本最多是 1 + c θ A ( ( d log ⁡ Q + log ⁡ 1 δ ) log ⁡ Q ) . 1+c\theta_\mathcal{A}\left((d\log\mathcal{Q}+\log\frac{1}{\delta})\log\mathcal{Q}\right). 1+cθA((dlogQ+logδ1)logQ).通过放松常数c，我们得到
N ( H , n , Q , A ) ≤ O ( θ A ( d log ⁡ Q + log ⁡ 1 δ ) log ⁡ Q ) . (4) N(\mathcal{H},n,\mathcal{Q},\mathcal{A})\leq\mathcal{O}\left(\theta_\mathcal{A}(d\log\mathcal{Q}+\log\frac{1}{\delta})\log\mathcal{Q}\right).\tag{4} N(H,n,Q,A)≤O(θA(dlogQ+logδ1)logQ).(4)
利用等式（3）和（4）的不等，我们提出了一个更一般的小数据概念。
定义6。小数据。在标准经验风险最小化的情况下，通过 Q \mathcal{Q} Q次抽样从 D \mathcal{D} D中学习小数据满足了对最优假设的增量更新，误差为 e r r ( h ∗ ) err(h^*) err(h∗)，
arg min ⁡ Q e r r ( h Q ) ≤ ( e r r ( h ∗ ) + O ( e r r ( h ∗ ) Ω + Ω ) ) s . t . Ω = d log ⁡ Q + log ⁡ 1 δ Q , (5) \argmin_\mathcal{Q}err(h_\mathcal{Q})\leq\left(err(h^*)+\mathcal{O}(\sqrt{err(h^*)\Omega}+\Omega)\right)\\ s.t. \ \Omega=\frac{d\log\mathcal{Q}+\log\frac{1}{\delta}}{\mathcal{Q}},\tag{5} Qargminerr(hQ)≤(err(h∗)+O(err(h∗)Ω +Ω))s.t. Ω=QdlogQ+logδ1,(5)
其中 h Q h_\mathcal{Q} hQ表示在第 Q \mathcal{Q} Q次采样时的更新假设。

3.2 小数据学习

根据小数据的标准定义，我们接下来研究如何通过经验风险最小化（ERM）学习小数据，ERM可以在实际模型中推广到不同的损失函数。我们关于ERM的标签复杂性的主要定理在定理1和定理2中给出。
在提出定理1之前，我们需要一个关于 ℓ ( h Q , h ∗ ) \ell(h_\mathcal{Q},h^*) ℓ(hQ,h∗)上重要性加权经验风险最小化的技术引理。相关技术参考J.Langford等人在[47]中的工作的推论4.2，以及C.Sahyoun等人工作的定理1。
引理1。设 R ( h ) R(h) R(h)为预期损失（也称为学习风险），规定 R ( h ) = E x ∼ D [ ℓ ( h ( x ) , y ) ] , R(h)=\mathbb{E}_{x\sim\mathcal{D}}[\ell(h(x),y)], R(h)=Ex∼D[ℓ(h(x),y)],并且 R ( h ∗ ) R(h^*) R(h∗)是最小值。在这样的设定下， ℓ ( h Q , h ∗ ) \ell(h_\mathcal{Q},h^*) ℓ(hQ,h∗)然后被限定边界 ℓ ( h Q , h ∗ ) ≤ R ( h Q ) − R ( h ∗ ) \ell(h_\mathcal{Q},h^*)\leq R(h_\mathcal{Q})-R(h^*) ℓ(hQ,h∗)≤R(hQ)−R(h∗)，规定 H Q : = { h ∈ H Q − 1 : R ( h Q ) ≤ R ( h ∗ ) + 2 Δ Q − 1 } , \mathcal{H}_\mathcal{Q}:=\{h\in\mathcal{H}_{\mathcal{Q}-1}:R(h_\mathcal{Q})\leq R(h^*)+2\Delta_{\mathcal{Q}-1}\}, HQ:={h∈HQ−1:R(hQ)≤R(h∗)+2ΔQ−1},其中 Δ Q − 1 \Delta_{\mathcal{Q}-1} ΔQ−1采用了[49]的形式
1 Q − 1 [ [ ∑ s = 1 Q − 1 p s ] log ⁡ [ ( Q − 1 ) ∣ H ∣ δ ] + log ⁡ [ ( Q − 1 ) ∣ H ∣ δ ] ] , \frac{1}{\mathcal{Q}-1}\left[\sqrt{[\sum_{s=1}^{\mathcal{Q}-1}p_s]\log[\frac{(\mathcal{Q}-1)|\mathcal{H}|}{\delta}]}+\log[\frac{(\mathcal{Q}-1)|\mathcal{H}|}{\delta}]\right], Q−11 [s=1∑Q−1ps]log[δ(Q−1)∣H∣] +log[δ(Q−1)∣H∣] ,
其中 ∣ H ∣ |\mathcal{H}| ∣H∣表示在 H \mathcal{H} H中假设的数量，同时 δ \delta δ代表一个概率阈值，要求 δ > 0. \delta>0. δ>0.由于 ∑ s = 1 Q − 1 p s ≤ Q − 1 , Δ Q − 1 \sum_{s=1}^{\mathcal{Q}-1}p_s\leq\mathcal{Q}-1,\Delta_{\mathcal{Q}-1} ∑s=1Q−1ps≤Q−1,ΔQ−1能够由下式确定边界
Δ Q − 1 = ( 2 Q − 1 ) log ⁡ ( 2 Q ( Q − 1 ) ) ∣ H ∣ 2 δ , \Delta_{\mathcal{Q}-1}=\sqrt{\left(\frac{2}{\mathcal{Q}-1}\right)\log\left(2\mathcal{Q}(\mathcal{Q}-1)\right)\frac{|\mathcal{H}|^2}{\delta},} ΔQ−1=(Q−12)log(2Q(Q−1))δ∣H∣2,
这表示损失不一致必然会近似于预期目标假设，因此 R ( h Q ) − R ( h ∗ ) ≤ 2 Δ Q − 1 . R(h_\mathcal{Q})-R(h^*)\leq 2\Delta_{\mathcal{Q}-1}. R(hQ)−R(h∗)≤2ΔQ−1.
学习小数据有两种方式，包括有监督学习和无监督学习。接下来，我们将介绍它们的不同泛化分析。

3.2.1 监督方式

我们遵循引理1的设置来表示在 Q \mathcal{Q} Q轮重要抽样下小数据学习的学习风险和标签复杂性。
定理1。通过应用主动学习算法 A \mathcal{A} A进行了 Q \mathcal{Q} Q轮查询，在概率至少 1 − δ 1-\delta 1−δ的情况下，对于所有 δ > 0 , \delta>0, δ>0,对于任意 Q > 0 , \mathcal{Q}>0, Q>0,小数据学习的 R ( h Q ) R(h_\mathcal{Q}) R(hQ)和 R ( h ∗ ) R(h^*) R(h∗)的误差不一致由以下式子限定
R ( h Q ) − R ( h ∗ ) ≤ max ⁡ Q { 2 Q [ ∑ t = 1 Q p t + 6 log ⁡ [ 2 ( 3 + Q ) Q 2 δ ] ] × log ⁡ [ 16 Q 2 ∣ H i ∣ 2 log ⁡ Q δ ] } , R(h_\mathcal{Q})-R(h^*)\\ \leq\max_\mathcal{Q}\left\{\frac{2}{\mathcal{Q}}\left[\sqrt{\sum^\mathcal{Q}_{t=1}p_t}+6\sqrt{\log[\frac{2(3+\mathcal{Q})\mathcal{Q}^2}{\delta}]}\right] \times\sqrt{\log[\frac{16\mathcal{Q}^2|\mathcal{H}_i|^2\log\mathcal{Q}}{\delta}]}\right\}, R(hQ)−R(h∗)≤Qmax⎩ ⎨ ⎧Q2 t=1∑Qpt +6log[δ2(3+Q)Q2] ×log[δ16Q2∣Hi∣2logQ] ⎭ ⎬ ⎫,
然后，在概率至少为 1 − 2 δ , 1-2\delta, 1−2δ,对于所有 δ > 0 , \delta>0, δ>0,小数据学习的标签复杂性可以由下式限定
N ( H , n , Q , A ) ≤ max ⁡ Q K ℓ { [ ∑ j = 1 Q θ A R j ∗ Q p j ] + ∑ j = 1 Q O ( R j ∗ Q p j log ⁡ [ Q ∣ H i ∣ Q δ ] ) + O ( Q log ⁡ 3 ( τ ∣ H i ∣ Q δ ) ) } . N(\mathcal{H},n,\mathcal{Q},\mathcal{A})\leq\max_\mathcal{Q}K_\ell\left\{[\sum^\mathcal{Q}_{j=1}\theta_\mathcal{A}R^*_j\mathcal{Q}p_j] +\sum^\mathcal{Q}_{j=1}O(\sqrt{R^*_j\mathcal{Q}p_j\log[\frac{\mathcal{Q}|\mathcal{H}_i|\mathcal{Q}}{\delta}]})+O(\mathcal{Q}\log^3(\frac{\tau|\mathcal{H}_i|\mathcal{Q}}{\delta}))\right\}. N(H,n,Q,A)≤QmaxKℓ{[j=1∑QθARj∗Qpj]+j=1∑QO(Rj∗Qpjlog[δQ∣Hi∣Q] )+O(Qlog3(δτ∣Hi∣Q))}.
其中 K ℓ K_\ell Kℓ是损失 ℓ \ell ℓ的坡度不对称， K ℓ = sup ⁡ x t ′ , x t ∈ D ∣ max ⁡ ℓ ( h ( x t ) , Y ) − ℓ ( h ( x t ′ ) , Y ) min ⁡ ℓ ( h ( x t ) , Y ) − ℓ ( h ( x t ′ ) , Y ) ∣ K_\ell=\sup\limits_{x'_t,x_t\in\mathcal{D}}|\frac{\max\ell(h(x_t),\mathcal{Y})-\ell(h(x'_t),\mathcal{Y})}{\min\ell(h(x_t),\mathcal{Y})-\ell(h(x'_t),\mathcal{Y})}| Kℓ=xt′,xt∈Dsup∣minℓ(h(xt),Y)−ℓ(h(xt′),Y)maxℓ(h(xt),Y)−ℓ(h(xt′),Y)∣ R j ∗ R^*_j Rj∗表示第j次查询的最佳类内风险， ∣ H ∣ |\mathcal{H}| ∣H∣表示 H \mathcal{H} H中元素的数量。
[49]中定理1和定理2的证明可分别用来证明定理1的两个不等式。

3.2.2 非监督方式

通过采用无监督学习，定理1的学习风险和标签复杂性退化为多项式表达式。
给定输入数据集 X \mathcal{X} X有 n n n个样本，它被划分成个 k k k集合 : { B 1 , B 2 , ⋯ , B k } :\{\mathcal{B}_1,\mathcal{B}_2,\cdots,\mathcal{B}_k\} :{B1,B2,⋯,Bk}，其中 B i \mathcal{B}_i Bi有 N i N_i Ni个样本。对于任何 B i \mathcal{B}_i Bi学习小数据执行IWAL。具体来说，它使用了一个新的错误不一致 θ L S D \theta_{LSD} θLSD来控制假设更新：
θ L S D = E x t ∈ B i sup ⁡ h ∈ B ( h ∗ , r ) { ℓ ( h ( x t ) , Y ) − ℓ ( h ∗ ( x t ) , Y ) r } . (6) \theta_{LSD}=\mathbb{E}_{x_t\in\mathcal{B}_i}\sup_{h\in B(h^*,r)}\left\{\frac{\ell(h(x_t),\mathcal{Y})-\ell(h^*(x_t),\mathcal{Y})}{r}\right\}.\tag{6} θLSD=Ext∈Bih∈B(h∗,r)sup{rℓ(h(xt),Y)−ℓ(h∗(xt),Y)}.(6)
定理2。给定 T T T轮查询通过应用主动学习算法 A \mathcal{A} A，让 Q \mathcal{Q} Q是基准查询的次数。如果学习小数据执行 A \mathcal{A} A对于任意的 B i \mathcal{B}_i Bi，每一个簇将会有 τ = T / k \tau=T/k τ=T/k轮查询。然后，有至少 1 − δ 1-\delta 1−δ的概率，对于所有的 δ > 0 \delta>0 δ>0，对于所有的 Q > 0 \mathcal{Q}>0 Q>0，小数据学习的 R ( h τ ) R(h_\tau) R(hτ)和 R ( h ∗ ) R(h^*) R(h∗)的误差不一致由 k k k次多项式限定
R ( h τ ) − R ( h ∗ ) ≤ k × max ⁡ H i , i = 1 , 2 , ⋯ , k { 2 τ [ ∑ t = 1 τ p t + 6 log ⁡ [ 2 ( 3 + τ ) τ 2 δ ] ] × log ⁡ [ 16 τ 2 ∣ H i ∣ 2 log ⁡ τ δ ] } , R(h_\tau)-R(h^*)\\ \leq k\times\max_{\mathcal{H}_i,i=1,2,\cdots,k}\left\{\frac{2}{\tau}\left[\sqrt{\sum_{t=1}^\tau p_t}+6\sqrt{\log[\frac{2(3+\tau)\tau^2}{\delta}]}\right]\times\sqrt{\log[\frac{16\tau^2|\mathcal{H}_i|^2\log\tau}{\delta}]}\right\}, R(hτ)−R(h∗)≤k×Hi,i=1,2,⋯,kmax{τ2[t=1∑τpt +6log[δ2(3+τ)τ2] ]×log[δ16τ2∣Hi∣2logτ] },
然后，有至少的概率，对于所有的 δ > 0 \delta>0 δ>0，小数据学习的标签复杂性可以由下式限定
N ( H , n , Q , A ) ≤ 8 k × max ⁡ H i , i = 1 , 2 , ⋯ , k K ℓ { [ ∑ j = 1 N i θ L S D R j ∗ τ p j ] + ∑ j = 1 N i O ( R j ∗ τ p j log ⁡ [ τ ∣ H i ∣ N i δ ] ) + O ( N i log ⁡ 3 ( τ ∣ H i ∣ N i δ ) ) } . N(\mathcal{H},n,\mathcal{Q},\mathcal{A})\\ \leq8k\times\max_{\mathcal{H}_i,i=1,2,\cdots,k}K_\ell\left\{[\sum_{j=1}^{N_i}\theta_{LSD}R^*_j\tau p_j]+\sum_{j=1}^{N_i}O\left(\sqrt{R^*_j\tau p_j\log[\frac{\tau|\mathcal{H}_i|N_i}{\delta}]}\right)+O\left(N_i\log^3(\frac{\tau|\mathcal{H}_i|N_i}{\delta})\right)\right\}. N(H,n,Q,A)≤8k×Hi,i=1,2,⋯,kmaxKℓ{[j=1∑NiθLSDRj∗τpj]+j=1∑NiO(Rj∗τpjlog[δτ∣Hi∣Ni] )+O(Nilog3(δτ∣Hi∣Ni))}.
其中 K ℓ K_\ell Kℓ是 B i \mathcal{B}_i Bi上的有限损失 ℓ \ell ℓ的斜率不对称，比如 ℓ B i , K ℓ = sup ⁡ x t ′ , x t ∈ B i ∣ max ⁡ ℓ B i ( h ( x t ) , Y ) − ℓ B i ( h ( x t ′ ) , Y ) min ⁡ ℓ B i ( h ( x t ) , Y ) − ℓ B i ( h ( x t ′ ) , Y ) ∣ , R j ∗ \ell_{\mathcal{B}_i},K_\ell=\sup\limits_{x'_t,x_t\in\mathcal{B}_i}\left|\frac{\max\ell_{\mathcal{B}_i}(h(x_t),\mathcal{Y})-\ell_{\mathcal{B}_i}(h(x'_t),\mathcal{Y})}{\min\ell_{\mathcal{B}_i}(h(x_t),\mathcal{Y})-\ell_{\mathcal{B}_i}(h(x'_t),\mathcal{Y})}\right|,R^*_j ℓBi,Kℓ=xt′,xt∈Bisup minℓBi(h(xt),Y)−ℓBi(h(xt′),Y)maxℓBi(h(xt),Y)−ℓBi(h(xt′),Y) ,Rj∗表示第 j j j次查询的同类最佳风险， ∣ H ∣ |\mathcal{H}| ∣H∣表示 H \mathcal{H} H中元素的数量。更多细节和证据见附录A部分。

A Survey of Learning on Small Data（一）相关推荐

A Survey of Learning on Small Data（二）
本文是<A Survey of Learning on Small Data>的翻译.原文链接小数据学习综述 4. 几何角度 4.1 Frechet均值 4.2 欧几里得均值 4.3 非 ...
Data Mining 论文翻译：Deep Learning for Spatio-Temporal Data Mining: A Survey
原文链接:[1906.04928] Deep Learning for Spatio-Temporal Data Mining: A Survey (arxiv.org) IEEE Transacti ...
From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIL)
From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIL) 摘要视觉室内导航(VIN)任务在基于学习 ...
基于网络的入侵检测数据集研究综述（A Survey of Network-based Intrusion Detection Data Sets）
A Survey of Network-based Intrusion Detection Data Sets 基于网络的入侵检测数据集研究综述摘要:标记数据对于基于异常的网络入侵检测系统的训练和评 ...
【论文翻译】Toward Learning Trustworthily from Data Combining Privacy, Fairness, and Explainability_【4】
Franco, D., et al. (2021). "Toward Learning Trustworthily from Data Combining Privacy, Fairness ...
Federated Learning with Non-IID Data
Federated Learning with Non-IID Data 论文中分析了FedAvg算法在Non-IID数据时,准确率下降的原因.并提出共享5%的数据可提高准确率. 论文笔记参考:htt ...
Federated Learning with Non-IID Data 论文笔记
本文提出联邦学习中的由于Non-IID数据分布而精度降低是因为权重分散(weight divergence),而权重散度可以用搬土距离(EMD)量化,最后提出了一种策略:通过创建一个在所有边缘设备 ...
Blockchain Empowered Asynchronous Federated Learning for Secure Data Sharing in Internet of Vehicles
<Blockchain Empowered Asynchronous Federated Learning for Secure Data Sharing in Internet of Vehi ...
Learning from Imbalanced Data 翻译和阅读笔记
Learning from Imbalanced Data 发表在IEEE<TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING>,09年的一篇好文 ...

A Survey of Learning on Small Data（一）

小数据学习综述

摘要