6.1 总结

主动学习作为一种能够显著减少标注成本的机器学习方法,备受学术界和工业界的广泛关注。自 1974 年起,越来越多的主动学习策略和框架不断被提出并应用到不同的领域中。此外,深度学习兴起的同时,带来了对大量标注样本的需求,更加突出了主动学习方法的重要性。图像分类作为人工智能的研究目的之一,能够帮助人类对海量的图像进行分类,在日常生活中具有广泛的应用前景。基于主动学习方法的重要性和图像分类技术的应用前景,本文着重研究了主动学习策略及其在图像分类中的应用,为将来主动学习方法在图像分类任务的应用及其发展提供了一些实践经验和建议。本文的主要研究内容总结如下:首先,本文对主动学习方法和图像分类技术进行了广泛的调研并进行综述。本文总结了主动学习方法的基本框架以及几种常见的基本策略,并围绕主动学习的扩展方法展开了简要的讨论。并且,概括了部分主流的基于传统机器学习以及基于深度学习的图像分类技术。然后,本文详细地讨论了半监督主动学习方法,提出了 NRMSL-BMAL 框架。核心内容包括: 1)针对噪声样本问题:提出了 NRMSL 方法,既能够减少部分噪声样本的产生,又能通过 SEC-CNN 方法提升模型的抗噪能力。 2)针对 BMAL 筛选的样本之间具有大量冗余信息的问题:引入基于卷积自编码的聚类算法,从而提升了被筛选样本的多样性,在一定程度上降低了样本之间的冗余信息。 3)在五组图像分类数据集上进行实验,结果表明 NRMSL-BMAL 能够减少 44.34% 至 95.93% 的标注成本。此外,我们从时间成本和标注成本的角度对单模式的主动学习和 BMAL进行了实验和讨论:虽然单模式的主动学习算法可能更进一步减少标注成本,但在不同数据集上的效果不稳定且提升的空间较低,同时需要消耗大量的时间成本。紧接着,本文详细地讨论了生成对抗网络及其改进方法,并提出了一种基于成对抗网络的二阶段主动学习方法。核心内容包括: 1)将 AAE 和 DCGAN 进行融合,以半监督的学习方式对 AAE-DCGAN 模型进行训练,充分利用了主动学习方法增量式产生标注样本的特性; 2)结合了生成式成员查询和基于未标注样本池的主动学习方法,在提高生成图像的质量和减少主动学习环节的计算成本的同时,又能够显著地减少样本的标注成本。最后,本文分析和讨论了主动学习方法的实际应用场景,设计并实现了一个面向图像分类任务的主动学习系统,通过图像分类任务验证了系统的有效性和稳定性。

6.2 展望

本文提出的两种主动学习方法和一个主动学习系统中,虽然在图像分类任务上取得了一定的研究成果: 1)显著地减少了标注成本; 2)以系统的形式应用到实际需求中。但是本文提出的方法仍有待改进,具体如下:

(1)处理更复杂的图像:本文提出的两个主动学习方法中,在常见的几组图像分类数据集中取得了较好的测试效果,但图像的复杂性较低。然而,在实际应用场景中,往往需要处理更为复杂的图像。在未来的工作中,我们将尝试改进相关的方法(例如: NRMSL-BMAL 框架中的卷积聚类方法; AAE-GANs-AL 生成图像的质量等),使其能够处理更复杂的图像。





