简 介: 在本文中,我们为智能交通系统提出了一种基于条件生成对抗网络的新型交通标志分类方法。所提出的 PcGAN是一个端到端网络,网络框架包含交替更新模块,即数据重建模块和退化生成模块,以及用于退化消去和生成的多任务损失函数,包括一个基本的 GAN损失、基于任务的损失和自适应一致性损失。和其他三种最先进的算法在公开可用的数据库上进行的对比实验充分证明了我们提出的方法在小样本分类任务和数据检索任务中的优越性。

关键词PcGAN深度学习

























































































































































摘 要









目 录
Contents









引 言









PcGAN框架









问题表述









损失函数









训练和测试策略









网络结构









实 验









实验数据和
对比方法









实验设计









小样本分类









数据检索测试









真实数据重建任务









总 结







§00 摘  要

  交通标志分类以其强大的信息表示能力在自动驾驶汽车中发挥着重要作用。然而,车载摄像头捕获的交通标志的低质量数据往往给一次( one-shot)分类任务带来不可避免的内在挑战。除了数据退化的问题外,基于学习的真实交通标志分类技术还面临来自训练数据的类内和类间数据不平衡的挑战。为了克服上述问题,我们提出了一种端到端的退化鲁棒的深度模型,称为 PcGAN,以小样本学习的方式对交通标志进行分类。所提出的 PcGAN从退化去除和生成两个交替优化模块(即数据重建模块和退化生成模块)的角度对退化的交通信号数据和相应原型之间的联合分布进行建模,从而确保了为新任务学习了潜在空间的嵌入。多任务损失函数旨在通过基本损失、传统损失和自适应一致性损失来提高 PcGAN的鲁棒性。大量实验全面证明了我们提出的 PcGAN在少样本分类任务和数据检索任务中与其他最先进的 (SOTA)方法相比的进步。

§01 引  言


  交通标志是以文字或符号形式传达引导、限制、警告或指示信息的道路设施,对交通驾驶具有重要意义。与可访问的词形式相比,符号形式往往与任何特定语言隔离,只有熟悉先验约定的人才能掌握,例如形状相似性。在大量基于符号的交通标志的情况下,这对驾驶员来说是一个巨大的挑战 [2]。幸运的是,随着智能交通系统( ITS[19]的快速发展,交通
  ∗史纪元和何春明为本文的共同一作。

  信号技术已经广泛应用于自动驾驶汽车 [23, 29, 25],这既可以协助驾驶员对各种交通标志的进行判断,又可以纠正人工智能系统的自动驾驶行为。

  与基于多模态的数据融合策略不同,交通标志技术只能通过单个传感器实现,即可见光相机,因为其最初的设计初衷是针对人类视觉系统 [20]的,这对于周围环境、可变光照条件、复杂天气 [11, 9, 10]等复杂因素是敏感的,如图 1所示。此外,相机成像系统会带来一些退化,例如硬件引起的噪声和相机内预处理失真 [32]。为了克服上述挑战,在传统方法和基于学习的方法中都提出了许多抗噪方法。传统方法主要依靠手工特征算子来抑制退化,例如局部熵 [6]NLM [30],这需要复杂的手动设计。在基于深度学习的方法中, Tian等人 [27]采用循环注意机制来减弱交通标志中背景噪声的影响。然而,现有的目标噪声也会影响后续处理的准确性,注意力图会受到数据退化的干扰。 DFR-TSD [1]利用挑战分类器对输入数据的退化条件进行分类,例如镜头模糊、雪、雾霾等,有效地为不同类型的退化提供了有针对性的重建技术。然而,这项工作非常耗时,并且极其依赖于挑战分类的精度,在错误分类的情况下难以提供高质量的重建效果。

▲ 图1.1 圆形示例及其来自于GTSRB和TT100K数据集的真是交通信号数据,其中(a)-(e)分别对应圆形、国安、模糊过度曝光、遮挡

  除了真实捕获的交通标志的图像质量下降外,恢复的高质量交通标志数据与原型数据存在显着的视觉差距。因为原型数据是对应类中最标准的数据,并不是专门为输入设计的,这会导致输入数据和原型数据之间的视觉域差异。对于这一挑战,一些如 [26]的方法致力于发布一个新的数据集,可以在一定程度上缓解领域差异的情况。然而,由于昂贵的标注成本,最近发布的公共数据集 [?]都不可避免地存在 类内和类间数据不平衡的问题。因此,纯数据驱动的深度网络经常会遇到一些数据不平衡导致的问题。小样本学习可以有效地解决数据不平衡问题,因为它具有强大的泛化能力,可以通过少量新类的原型数据在潜在空间中学习数据的通用先验知识。小样本学习的开创性工作,即 Li等人 [4],假设先验知识有助于人们进行更有效的学习。李等人。 [4]用贝叶斯策略探索了潜在的和通用的先验信息。

  结果表明,学习到的先验可以很容易地用少量数据调整到其他问题。在 [33]中,特征空间中样本的低秩表示被标签分布学习用于分类任务。Xing等人 [31]曾提议将自动编码器与生成对抗网络相结合,用于零样本跨模态检索任务,该任务利用了分布对齐中的常见潜在空间学习、知识转移和特征合成。此外,最近的一些方法,例如莱克等人。 [17]关注生成的过程,也探索了几个层次贝叶斯的例子。在这种策略下,提取的过程也可以推广到新任务,即使示例数量下降到一个。值得注意的是,尽管基于深度学习的算法发展迅速,但小样本学习是一项持续具有挑战性的任务,其在自然数据集上的表现甚至低于一些手工方法。原因主要在于相当有限的数据会导致过拟合的问题。在这种情况下,最近提出的的基于学习的算法主要侧重于嵌入学习和元学习策略。 VPE [14]是一种基于一次性学习的方法,前一种策略是在变分自动编码器 (VAE)结构中通过最近邻分类对交通标志进行分类,并在数据分类和图像检索方面取得了先进的性能。然而, VPE迫使真实交通标志的生成输出与其原型相似,这是最标准的交通标志。显然,直接从映射关系中学习公共空间是具有挑战性且不合理的。

  为了克服上述挑战,我们提出了一种具有原型数据的退化鲁棒条件生成对抗网络,称为 PcGAN,通过小样本学习对交通标志进行分类。如图 2所示 ,所提出的 PcGAN是一种模拟退化过程的端到端模型,它制定了真实交通标志数据与其相应原型之间的隐式联合分布,即数据重建模块和退化生成模块,而不是通过两个交替更新模块强制重建的交通标志与其原型相似。为了进一步提高 PcGAN的鲁棒性,提出了一种多任务损失函数来联合约束退化的去除和生成。PcGAN的贡献可以总结如下:

(1) 据我们所知,这是首次在交通标志分类的一次性学习领域引入双重对抗策略来近似隐式联合分布,该策略可以同时模拟退化去除和生成过程。因此,所提出的 PcGAN可以全面了解真实交通标志与其原型数据之间的潜在关系。

  (2) 为了获得更准确的分类性能,我们提出了一个多任务损失函数来联合约束网络训练,包括交通标志真实数据的重建和相应原型的退化。

  (3) 大量实验全面说明了我们的 PcGAN在定性分析和定量分析方面与其他最先进的 (SOTA)技术相比的优越性。


  图 2.所提出的 PcGAN的框架,其中 (a)是同一类交通标志的真实数据, (b)是对应的原型图像和初始退化算子, ©是数据重构模块处理的重构数据,( d)被退化生成模块退化的结果图,并且 (e)是为了简化联合分布 p(t, r)的图像拼接操作。

§02 PcGAN框架


  在本节中,我们将介绍所提出的 PcGAN模型,该模型类似于基于度量的学习解决方案,目的是学习可泛化的嵌入。与传统的 GAN不同,我们的模型应用于少样本学习任务,该任务侧重于模型的泛化能力和潜在空间的嵌入通用性,只有一个支持数据。因此,PcGAN的训练阶段旨在构建一个具有大量训练数据的通用嵌入空间,在测试阶段,学习到的嵌入空间将用于新类测试与其原型数据之间的最近邻分类。此外,与使用选定度量构建嵌入空间的基于度量的学习方法相比,PcGAN的嵌入构建过程需要元任务的协助,即学习从真实数据到原型数据的映射,这意味着我们的 PcGAN可以比手动选择的指标更有效。在本文中,提出的 PcGAN被应用于通过单个原型数据处理少样本分类问题,其框架如图 2所示,它包含以下模块,包括数据重建模块 Dr、退化生成模块 Dg和判别模块 D

2.1 问题表述

  我们将少样本分类问题定义为具有两个生成器的条件 GAN,它对应于数据重建模块和噪声生成模块中的编码器 -解码器结构。给定一对配对的由车载摄像头捕获的真实退化图像 r及其原型图像 t,我们的任务问题是通过求解联合分布 p(r, t)而不是强制生成器学习从 rt的映射 [14]。下面,我们将详细描述上述模块和判别模块的原理。

  数据重建模块。数据重建模块 Dr专注于在退化图像 r已知的情况下重建恢复的图像,即学习隐式分布 pDr (t | r)来近似 p(t | r),其中近似重建数据 tˆ= Dr®。在这种情况下,恢复的联合分布定义如下:

pDr(t,r)=pDr(t∣r)p(r)p_{D_r } \left( {t,r} \right) = p_{D_r } \left( {t|r} \right)p\left( r \right)pDr(t,r)=pDr(tr)p(r)

  其中 p(r)是捕获的退化图像 r的分布,它是一个固定值。从上面提到的等式可以看出,数据重建模块 D(r)的性能与 pDr (t, r)p(t, r)之间的近似程度成正比。

  退化生成模块。交通标志只能由自动驾驶系统中的摄像头传感器捕获,这会带来一些硬件引起的噪声和一些摄像头内预处理失真 [32]。在这种情况下,我们导入一个潜在向量 zd来表示上述可降解条件,其中从原型数据 t到真实失真数据 r的真实退化过程的分布可以用 p(r | t, zd)和退化生成模块 Dg生成的可以用 pDg (r | t, zd)表示。因此,退化数据 rˆ如下:

KaTeX parse error: Can't use function '\~' in math mode at position 37: …t,z_d } \right)\̲~̲p_{D_g } \left(…

  那么退化的联合分布可以通过以下方式实现:
pDg(t,r)=∫zdpdg(r∣t,zd)p(t)p(zd)dzdp_{D_g } \left( {t,r} \right) = \int_{z_d }^{} {p_{d_g } \left( {r|t,z_d } \right)p\left( t \right)p\left( {z_d } \right)dz_d }pDg(t,r)=zdpdg(rt,zd)p(t)p(zd)dzd

  上述公式可以被简写为 [16]:
pDg(t,r)≈1k∑kKpDg(r∣t,zdk)p(t)p_{D_g } \left( {t,r} \right) \approx {1 \over k}\sum\limits_k^K {p_{D_g } \left( {r|t,z_{d_k } } \right)p\left( t \right)}pDg(t,r)k1kKpDg(rt,zdk)p(t)

  其中 p(t)是原型数据 t的分布。与“数据重建模块”相同,更好的 Dg可以有助于更准确地近似 pDg (t, r)

2.2 损失函数

  介绍了恢复的联合分布 pDr (t, r)和退化的联合分布 pDg (t, r),我们进一步描述了如何近似两个伪分布到真实的分布 p(t, r),即如何有效地训练数据重建模块 Dr和退化生成模块 Dg。为了逐渐平滑地将 pDr (t, r)pDg (t, r)更新为真实值 p(t, r),我们训练方程( 1)和( 4)的易处理性的对抗框架。受 [18]的启发,我们 PcGAN的基本损失函数公式如下:

LGAN=min⁡DrDgmax⁡DL(Dr,Dg,D)=E(t,r)[D(t,r)]−{λE(t^,r)[D(t^,r)]+(1−λ)E(t,r^)[D(t,r^)]}L_{GAN} = \mathop {\min }\limits_{D_r D_g } \mathop {\max }\limits_D L\left( {D_r ,D_g ,D} \right) = E_{\left( {t,r} \right)} \left[ {D\left( {t,r} \right)} \right] - \left\{ {\lambda E_{\left( {\hat t,r} \right)} \left[ {D\left( {\hat t,r} \right)} \right] + \left( {1 - \lambda } \right)E_{\left( {t,\hat r} \right)} \left[ {D\left( {t,\hat r} \right)} \right]} \right\}LGAN=DrDgminDmaxL(Dr,Dg,D)=E(t,r)[D(t,r)]{λE(t^,r)[D(t^,r)]+(1λ)E(t,r^)[D(t,r^)]}

  其中 D表示生成对抗网络模型中的判别器,其目的是将真实数据对与生成的 (ˆr)区分。 λ是
  t, r)(t, ˆ一个权衡参数,它在数据构建和退化生成之间保持平衡。为了更清楚地描绘差异,应用 Wassertein-1距离 [3]来表征上述分布差异。

  正如 [8]中讨论的,常用的损失函数可以保证对抗训练的稳定性。在这种情况下,参考 [12],数据重建任务和退化生成任务的损失函数由 L2 − norm表示,即均方误差( MSE)。然而,考虑到退化生成模块中潜在向量 zd的随机性,我们更关注退化数据 rˆ的统计信息。因此, PcGAN的总损失函数表示如下:

Lt=LGAN+Ltradition=min⁡Dr,Dgmax⁡DL(Dr,Dg,D)+αMSE(t^,t)+βMSE(f(r^−t),f(r−t))L_t = L_{GAN} + L_{tradition} = \mathop {\min }\limits_{D_r ,D_g } \mathop {\max }\limits_D L\left( {D_r ,D_g ,D} \right) + \alpha MSE\left( {\hat t,t} \right) + \beta MSE\left( {f\left( {\hat r - t} \right),f\left( {r - t} \right)} \right)Lt=LGAN+Ltradition=Dr,DgminDmaxL(Dr,Dg,D)+αMSE(t^,t)+βMSE(f(r^t),f(rt))

  其中 f(·)表征提取到的统计信息 ,例如高斯滤波 , prewitt算子等。α和 β是平衡参数。
  此外,退化生成模块是 PcGAN的重点,在交通标志分类任务中,由于原型数据的扰动鲁棒性,它比数据重建模块更难生成。在这种情况下, PcGAN中数据重建模块的结构不同于 GAN中传统的生成模型,尽管存在原型数据,但更类似于变分自编码器( VAE)结构。为了确保编码器 -解码器架构的准确性和嵌入潜在向量的扰动鲁棒性,我们提出了一种自适应一致性损失,它仅约束退化生成模块的内部参数,如图2所示:

LACgene=Lφθ(r,t)=1M∑m=1M−log⁡pφ(t∣zr(m))+DKL[qθ(zr∣r)∣pφ(zr)]L_{AC}^{gene} = L_{\varphi \theta } \left( {r,t} \right) = {1 \over M}\sum\limits_{m = 1}^M { - \log p_\varphi \left( {t|z_r^{\left( m \right)} } \right)} + D_{KL} \left[ {q_\theta \left( {z_r |r} \right)|p_\varphi \left( {z_r } \right)} \right]LACgene=Lφθ(r,t)=M1m=1Mlogpφ(tzr(m))+DKL[qθ(zrr)pφ(zr)]

其中 qϑ (zr | r)和 pφ (t | zr)对应概率性编码和解码 ,这二者都由一个网络结构建模并且隐空间 {zr (m)}M 由 qϑ (zr | r)通过一个重新参数化技巧获得 [16]。

2.3 训练和测试策略

  训练阶段。PcGAN中需要更新三个模块,即数据重建模块 Dr、退化生成模块 Dg和判别模块 D。我们遵循 [3]中的训练策略,其中三个模块共同训练并交替更新。此外,为了克服 GAN训练中的动荡局面,Lipschitz约束被应用于 D,并采用梯度 [5]的惩罚策略。

  测试阶段。考虑到驾驶条件的复杂性,摄像头传感器捕捉到的数据在各种条件下都会受到干扰,从而导致严重的退化。因此,与计算处理数据之间的相似度的方式相比,从聚类的角度来完成分类任务是可取的。如 Fig. 3,我们最初输入带有原型数据的新类,并通过编码器从退化生成模块 Dg中提取特征。随后,当输入真实数据时,数据重建模块 Dr编码的相应特征将通过最近邻技术和欧几里德距离进行检索。最后,输入数据被归类为原型数据在欧几里德距离中最接近输入的类。

▲ 图2.3.1 测试阶段的图示,其中编码器是数据重建模块的一部 分。原型通过Dg 进行降级,嵌入Dr 的编码器,并在通过 欧几里德距离从测试数据集编码的高级特征之间使用最近邻 方法进行分类

2.4 网络结构

  上述三个模块均采用深度网络,即数据重建模块 Dr、退化生成模块 Dg和判别器模块 D。请注意, DrDg与编码器-解码器结构共享相同的主干,如图??所示。 DrDg的编码器由三个卷积层构成,然后是批量归一化和 LeakyReLU,其内核大小、步长和填充分别为 3 × 321,以及一个全连接层,用于为潜在空间提供特征图。解码器的结构与编码器的结构关于潜在空间 zr对称。如 Fig. 5,鉴别器模块 D由四个卷积层和 LeakyReLU组成,它们与 Dr共享相同的内核大小、步长和填充,以及一个全连接层。

▲ 图2.4.1 数据重建网络结构

  图 4.数据重建模块 Dr和退化生成模块 Dg的网络架构,其中 Conv(j,k,l)表示内核大小 j × j,stride k和 padding l分别是,LReLU和 FC层是 LeakyReLU和全连接层的缩写。图 5.判别器模块 D的网络架构,其中 Conv(j,k,l)分别表示内核大小 j × j、stride k和 padding l,并且 FC层是全连接层的缩写。

▲ 图2.4.2 判别模块网络架构

  图5. 判别器模块D 的网络架构,其中Conv(j,k,l) 分别表示内核大小j × j、stride k 和padding l,并且FC 层是全连接层的缩写。

§03 实  验


  在本节中,我们提出的 PcGAN的性能与其他三种 SOTA方法在两个常用数据集上的性能进行了比较。在下面的内容中,我们将详细描述实验设置、数据集和比较方法。此外,在德国交通标志识别基准(GTSRB[24]和清华-腾讯 100KTT100K[34]上进行了小样本分类任务和数据检索测试的实验。

3.1 实验数据和对比方法

  数据集。实验选择了两个常用的数据集,即 GT¬SRBTT100K。在交通标志识别领域, GTSRB是最受欢迎、规模最大的数据集,它包括禁止、危险和强制三类,有四十三个具体类别。在这个数据集中,捕获的真实交通信号数据会随着周围环境、糟糕的照明、复杂的驾驶条件和多变的天气而退化,如图??所示。此外,尽管训练集和测试集的规模分别超过三万九千和一万二千张图像,但上述类内和类间数据不平衡的问题在 GTSRB中明显存在。与 GT¬SRB不同, TT100K最初是针对两百多个类别的交通信号检测任务提出的。因此,我们排除了没有明确注释的数据。参考 [14],为交通信号分类任务挑选了 36个类别超过 2万张图像,其中有四个与 GTSRB重叠的类别。

  对比方法。除了我们提出的 PcGANVPE [14]之外,还添加了 QuadNet [13]MatchNet [28]进行小样本分类任务和数据检索测试的比较,其中细节配置均与它们的在线公开代码相同,未进行任何人为修改。

▲ 图3.1.1 表1. 少数样品分类(即最近邻)在GTSRB和TT100K数据集上的准确性(%)其中最佳值用粗体标记

▲ 图3.1.2 最近邻搜索结果

  图 6.最近邻检索到的前 50个数据的平均值,其中原型数据显示在第一行,检索到的数据的平均值从第二行到第五行显示。 (a)¬(d)是来自 GTSRB数据集的未见类,(e)-(h)是来自 TT100K数据集的类。

▲ 图3.1.3 数据检索测试的结果

  表 2.数据检索测试的 AUC,其中最佳值用粗体标记。 个已知类的训练集进行训练,并通过所有类的测试QuadNet [13] MatchNet [28] VPE [14] PcGAN 集进行评估。因此,这 22个未见过的类可以构成模GTSRB N/A 54.29 64.32 68.47 型微调的验证集。TT100K N/A 41.32 41.31 47.25

3.2 实验设计

  如上所述,GTSRB最初是为交通信号识别任务而设计的,而 TT100K需要一些特定的过滤器。因此,GTSRB在跨数据集评估中分为可见类和不可见类两个分区,以进一步估计学习到的潜在空间的泛化能力。具体来说,选择了 22个类作为可见类,其余的类是未见类,即我们的 PcGAN使用具有 22

  在训练阶段,根据 [7]的策略设置数据重建模块 Dr和退化生成模块 Dg的初始权重。此外,判别器 D的初始权重遵循正态分布 [22],其平均值和标准差分别为 00.02。我们应用 ADAM优化器 [15]来训练三个具有动量项 (0.5, 0.9)用于 DrDg以及 (0.9, 0.999)用于 D的模块。此外,上述三个模块的学习率分别为 2 × 1051 × 1042 × 104。最小批量大小设置为 128,输入大小为 64 × 64。λ、α和 β在整个实验部分设置为 0.5100010。至于 梯度惩罚策略,系数由 [5]设置为默认值。所有实验均在 Nvidia 1080 GPU上的 PyTorch [21]中实现。

▲ 图3.2.1 实验数据

  图 7.图1中提到的 GTSRB数据集的挑战性数据的重建性能,其中( a)代表原型,(b)-(e)中每两行分别代表具有挑战性的真实数据和相应的恢复数据。

3.3 小样本分类

  在本小节中,我们在来自 GTSRBTT100K数据集的三个条件下提供了我们的 PcGAN和上述三种方法之间的定量分析,其中包括 GTSRB中的 21个未见过的类、 TT100K中的所有类和 32个未见过的类 TT100K中的课程。

  如表1所示,所提出的 PcGAN的分类准确率远高于 GTSRB中未见过的类别中的其他方法,这充分证明了我们的 PcGAN隐式嵌入空间的泛化。此外,跨数据集评估中的度量值,即 TT100K,在所有类别和 32个未见过的类别中也优于现有的 SOTA,这可归因于退化鲁棒结构,包括退化生成和退化的两个交替优化模块。在表 1中,MatchNet [28]的分类性能不佳主要在于基于注意力的内核对可见类敏感,无法在真实输入和不可见类之间生成适当的关系原型图像。

3.4 数据检索测试

  为了生动地说明比较方法之间的嵌入性能,我们进一步提供了定性和定量的数据检索测试。我们通过在 50-近邻 (NN)算法下使用编码的真实输入查询嵌入空间中的原型数据来检索数据,其聚类指标是指比较技术 [13, 28, 14],例如,我们在 PcGAN中选择欧几里德距离作为 NN度量,测试的最终输出是比较方法的 50个最近检索数据的平均值。如图6所示,很明显,我们的检索结果在更清晰的输出方面优于比较方法,这是由于退化鲁棒性模块可以抵抗输入的扰动并将它们分类到正确的类别。定量分析如表 2所示,这进一步证明了所提出的 PcGAN的先进性。VPE[14]的检索表现平平无奇的原因主要在于 VPE强制真实输入学习其原型的隐式分布,而没有任何抗退化策略,这会导致输入的嵌入与其原型之间的距离很远学习到的潜在空间中的数据。

▲ 图3.4.1 对比结果

  表 3. GTSRB数据集上两个指标的平均值。

3.5 真实数据重建任务

  正如图 1中所提的,真实采集的交通数据对于可变的周围环境、复杂的天气等进行后处理可能具有挑战性。因此,图 7被展示以证明我们所提出的 PcGAN模型对于退化是鲁棒的。值得注意的是,我们只测试了 GTSRB在可见类和不可见类下的重建性能,以证明 PcGAN的抗退化和泛化,而没有对类内和类间数据不平衡进行跨数据集评估 [14]。考虑到大部分比较技术都是基于度量的学习策略,它们只关注输入数据的高阶特征而非重建任务,因此我们只与它们进行定量比较,即表 3,和定性比较,即图8,包含剩下三十九类中除了图 7中提及的四个类。如表3所示,我们的 PcGANPSNRSSIM都远高于 GTSRB测试集中超过 12000个真实数据的比 较方法,这全面证明了我们提出的 PcGAN的退化鲁棒性和纹理保真度,用于特定设计的交替更新结构和多任务损失函数。图 78进一步详细证明了上述论证 .在图 8,剩下的 21个可见类和 18个未见类显示了来自测试集的具有挑战性的真实数据和相应的重建图像。很明显,尽管输入在上述具有挑战性的情况下均有退化情况,即过暗、模糊、过度曝光、遮挡,但所见类的相应输出质量非常高并且与原型非常相似而那些看不见的类也可以明确地传达所输入交通标志的大部分语义信息,这可以归因于退化鲁棒模块和多任务损失函数。

▲ 图3.5.1 测试结果

  图 8. PcGANGTSRB数据集中的输出,除了图 7,其中从第一行到第七行展示了可见的类,从第八行到第十三行展示了看不见的类。

  较方法,这全面证明了我们提出的 PcGAN的退化鲁棒性和纹理保真度,用于特定设计的交替更新结构和多任务损失函数。图 78进一步详细证明了上述论证 .在图 8,剩下的 21个可见类和 18个未见类显示了来自测试集的具有挑战性的真实数据和相应的重建图像。很明显,尽管输入在上述具有挑战性的情况下均有退化情况,即过暗、模糊、过度曝光、遮挡,但所见类的相应输出质量非常高并且与原型非常相似而那些看不见的类也可以明确地传达所输入交通标志的大部分语义信息,这可以归因于退化鲁棒模块和多任务损失函数。

§04 总  结


  在本文中,我们为智能交通系统提出了一种基于条件生成对抗网络的新型交通标志分类方法。所提出的 PcGAN是一个端到端网络,网络框架包含交替更新模块,即数据重建模块和退化生成模块,以及用于退化消去和生成的多任务损失函数,包括一个基本的 GAN损失、基于任务的损失和自适应一致性损失。和其他三种最先进的算法在公开可用的数据库上进行的对比实验充分证明了我们提出的方法在小样本分类任务和数据检索任务中的优越性。

4.1

[1] S. Ahmed, U. Kamal, and M. K. Hasan. Dfr-tsd: A deep learning based framework for robust traffic sign detection under challenging weather conditions. IEEE Transactions on Intelligent Transportation Systems, 2021. 1
[2] F. Almutairy, T. Alshaabi, J. Nelson, and S. Wshah. Arts: Automotive repository of traffic signs for the united states. IEEE Transactions on Intelligent Trans¬portation Systems, 22(1):457–465, 2019. 1
[3] J. Cao, L. Mo, Y. Zhang, K. Jia, C. Shen, and M. Tan. Multi-marginal wasserstein gan. Advances in Neural Information Processing Systems, 32:1776–1786, 2019.
[4] L. Fe-Fei et al. A bayesian approach to unsupervised one-shot learning of object categories. In Proceedings Ninth IEEE International Conference on Computer Vision, pages 1134–1141. IEEE, 2003. 2
[5] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. Courville. Improved training of wasserstein gans. arXiv preprint arXiv:1704.00028, 2017. 4, 7
[6] C. He, X. Wang, L. Deng, and G. Xu. Image threshold segmentation based on glle histogram. In 2019 Inter¬national Conference on Internet of Things (iThings) and IEEE Green Computing and Communications (GreenCom) and IEEE Cyber, Physical and Social Computing (CPSCom) and IEEE Smart Data (Smart-Data), pages 410–415. IEEE, 2019. 1
[7] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on im¬agenet classification. In Proceedings of the IEEE inter¬national conference on computer vision, pages 1026– 1034, 2015. 6
[8] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. Image¬to-image translation with conditional adversarial net¬works. In Proceedings of the IEEE conference on com¬puter vision and pattern recognition, pages 1125–1134, 2017. 4
[9] M. Ju, C. Ding, Y. J. Guo, and D. Zhang. Idgcp: Image dehazing based on gamma correction prior. IEEE Transactions on Image Processing, 29:3104– 3118, 2019. 1
[10] M. Ju, C. Ding, W. Ren, Y. Yang, D. Zhang, and Y. J. Guo. Ide: Image dehazing and exposure using an en¬hanced atmospheric scattering model. IEEE Transac¬tions on Image Processing, 30:2180–2192, 2021. 1
[11] M. Ju, C. Ding, D. Zhang, and Y. J. Guo. Bdpk: Bayesian dehazing using prior knowledge. IEEE Transactions on Circuits and Systems for Video Tech¬nology, 29(8):2349–2362, 2018. 1
[12] T. Kaneko and T. Harada. Noise robust generative ad¬versarial networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recogni¬tion, pages 8404–8414, 2020. 4
[13] J. Kim, S. Lee, T.-H. Oh, and I. S. Kweon. Co-domain embedding using deep quadruplet networks for unseen traffic sign recognition. In Thirty-Second AAAI Con¬ference on Artificial Intelligence, 2018. 5, 6, 7
[14] J. Kim, T.-H. Oh, S. Lee, F. Pan, and I. S. Kweon. Variational prototyping-encoder: One-shot learning with prototypical images. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pat¬tern Recognition, pages 9462–9470, 2019. 2, 3, 5, 6, 7
[15] D. P. Kingma and J. Ba. Adam: A method for stochas-tic optimization. arXiv preprint arXiv:1412.6980, 2014. 6
[16] D. P. Kingma and M. Welling. Auto-encoding vari¬ational bayes. arXiv preprint arXiv:1312.6114, 2013.
4
[17] B. M. Lake, R. Salakhutdinov, and J. B. Tenen¬baum. Human-level concept learning through prob¬abilistic program induction. Science, 350(6266):1332– 1338, 2015. 2
[18] C. Li, K. Xu, J. Zhu, and B. Zhang. Triple genera-tive adversarial nets. arXiv preprint arXiv:1703.02291, 2017. 4
[19] Y. Li, S. Yang, Y. Zheng, and H. Lu. Improved point-voxel region convolutional neural network: 3d object detectors for autonomous driving. IEEE Trans¬actions on Intelligent Transportation Systems, pages 1–7, 2021. 1
[20] Y. Lu, C. He, Y.-F. Yu, G. Xu, H. Zhu, and L. Deng. Vector co-occurrence morphological edge detection for colour image. IET Image Processing, 2021. 1
[21] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Brad-bury, G. Chanan, T. Killeen, Z. Lin, N. Gimelshein,
  L. Antiga, et al. Pytorch: An imperative style, high-performance deep learning library. Advances in neural information processing systems, 32:8026–8037, 2019. 7
[22] A. Radford, L. Metz, and S. Chintala. Unsu¬pervised representation learning with deep convolu¬tional generative adversarial networks. arXiv preprint arXiv:1511.06434, 2015. 6
[23] C. G. Serna and Y. Ruichek. Traffic signs detection and classification for european urban environments. IEEE Transactions on Intelligent Transportation Sys¬tems, 21(10):4388–4399, 2019. 1
[24] J. Stallkamp, M. Schlipsing, J. Salmen, and C. Igel. Man vs. computer: Benchmarking machine learning algorithms for traffic sign recognition. Neural net-works, 32:323–332, 2012. 5
[25] D. Tabernik and D. Skočaj. Deep learning for large-scale traffic-sign detection and recognition. IEEE transactions on intelligent transportation systems, 21(4):1427–1440, 2019. 1
[26] D. Temel, M.-H. Chen, and G. AlRegib. Traffic sign detection under challenging conditions: A deeper look into performance variations and spectral characteris¬tics. IEEE Transactions on Intelligent Transportation Systems, 21(9):3663–3673, 2019. 1
[27] Y. Tian, J. Gelernter, X. Wang, J. Li, and Y. Yu. Traf¬fic sign detection using a multi-scale recurrent atten¬tion network. IEEE transactions on intelligent trans¬portation systems, 20(12):4466–4475, 2019. 1
[28] O. Vinyals, C. Blundell, T. Lillicrap, D. Wierstra, et al. Matching networks for one shot learning. Advances in neural information processing systems, 29:3630–3638, 2016. 5, 6, 7
[29] Z. Wang, J. Wang, Y. Li, and S. Wang. Traffic sign recognition with lightweight two-stage model in com¬plex scenes. IEEE Transactions on Intelligent Trans¬portation Systems, 2020. 1
[30] L. Xu, C. Song, and L. Chen. Tri-structured-sparsity induced joint feature selection and classification for hy¬brid noise resilient multilabel learning. IEEE Access, 8:108270–108280, 2020. 1
[31] X. Xu, J. Tian, K. Lin, H. Lu, J. Shao, and H. T. Shen. Zero-shot cross-modal retrieval by assembling autoencoder and generative adversarial network. ACM Transactions on Multimedia Computing, Communica¬tions, and Applications (TOMM), 17(1s):1–17, 2021.
2
[32] Z. Yue, Q. Zhao, L. Zhang, and D. Meng. Dual adver¬sarial network: Toward real-world noise removal and noise generation. In European Conference on Com¬puter Vision, pages 41–58. Springer, 2020. 1, 3
[33] Q. Zheng, J. Zhu, H. Tang, X. Liu, Z. Li, and H. Lu. Generalized label enhancement with sample correla¬tions. IEEE Transactions on Knowledge and Data Engineering, pages 1–1, 2021. 2
[34] Z. Zhu, D. Liang, S. Zhang, X. Huang, B. Li, and
  S. Hu. Traffic-sign detection and classification in the wild. In Proceedings of the IEEE conference on com¬puter vision and pattern recognition, pages 2110–2118, 2016. 5


■ 相关文献链接:

  • 图1.2 所提出的PcGAN 的框架,其中(a) 是同一类交通标志的真实数据,(b) 是对应的原型图像和初始退化算子,© 是数据 重构模块处理的重构数据,( d) 被退化生成模块退化的结果图,并且(e) 是为了简化联合分布p(t, r) 的图像拼接操作

● 相关图表链接:

  • 图1.1 圆形示例及其来自于GTSRB和TT100K数据集的真是交通信号数据,其中(a)-(e)分别对应圆形、国安、模糊过度曝光、遮挡
  • 图2.3.1 测试阶段的图示,其中编码器是数据重建模块的一部 分。原型通过Dg 进行降级,嵌入Dr 的编码器,并在通过 欧几里德距离从测试数据集编码的高级特征之间使用最近邻 方法进行分类
  • 图2.4.1 数据重建网络结构
  • 图2.4.2 判别模块网络架构
  • 图3.1.1 表1. 少数样品分类(即最近邻)在GTSRB和TT100K数据集上的准确性(%)其中最佳值用粗体标记
  • 图3.1.2 最近邻搜索结果
  • 图3.1.3 数据检索测试的结果
  • 图3.2.1 实验数据
  • 图3.4.1 对比结果
  • 图3.5.1 测试结果

PcGAN:一种用于一次学习的噪声鲁棒条件生成对抗网络∗相关推荐

  1. 云检测2020:用于高分辨率遥感图像中云检测的自注意力生成对抗网络Self-Attentive Generative Adversarial Network for Cloud Detection

    用于高分辨率遥感图像中云检测的自注意力生成对抗网络Self-Attentive Generative Adversarial Network for Cloud Detection in High R ...

  2. GAN学习记录(五)——循环生成对抗网络CycleGan

    循环生成对抗网络CycleGan实现风格迁移 dataset https://people.eecs.berkeley.edu/~taesung_park/CycleGAN/datasets/vang ...

  3. TensorFlow 2.0深度学习算法实战---第13章 生成对抗网络

    我不能创造的事物,我就还没有完全理解它.−理查德·費曼 在生成对抗网络(Generative Adversarial Network,简称 GAN)发明之前,变分自编码器被认为是理论完备,实现简单,使 ...

  4. Nikolai Yakovenko大佬:深度学习的下一个热点:生成对抗网络(GANs)将改变世界

    生成式对抗网络-简称GANs-将成为深度学习的下一个热点,它将改变我们认知世界的方式. 准确来讲,对抗式训练为指导人工智能完成复杂任务提供了一个全新的思路,某种意义上他们(人工智能)将学习如何成为一个 ...

  5. 深度学习的下一个热点:生成对抗网络(GANs)将改变世界

    本文作者 Nikolai Yakovenko 毕业于哥伦比亚大学,目前是 Google 的工程师,致力于构建人工智能系统,专注于语言处理.文本分类.解析与生成. 生成式对抗网络-简称GANs-将成为深 ...

  6. 你真的了解深度学习生成对抗网络(GAN)吗?

    生成对抗网络(GANs,https://en.wikipedia.org/wiki/Generative_adversarial_network)是一类具有基于网络本身即可以生成数据能力的神经网络结构 ...

  7. 人工智能 - paddlepaddle飞桨 - 深度学习基础教程 - 生成对抗网络

    生成对抗网络 本教程源代码目录在book/09.gan,初次使用请您参考Book文档使用说明. 说明:¶ 硬件环境要求: 本文可支持在CPU.GPU下运行 Docker镜像支持的CUDA/cuDNN版 ...

  8. [深度学习-实践]条件生成对抗网络cGAN的例子-Tensorflow2.x Keras

    系列文章目录 深度学习GAN(一)之简单介绍 深度学习GAN(二)之DCGAN基于CIFAR10数据集的例子 深度学习GAN(三)之DCGAN基于手写体Mnist数据集的例子 深度学习GAN(四)之c ...

  9. 『一起学AI』生成对抗网络(GAN)原理学习及实战开发

     参考并翻译教程:https://d2l.ai/chapter_generative-adversarial-networks/gan.html,加入笔者的理解和心得 1.生成对抗网络原理 在Col ...

最新文章

  1. 源码资本深耕“三横九纵”科技助力网聚优秀企业
  2. Fabric 学习笔记-架构初探
  3. IsPostBack原理
  4. java sendmessage函数_vc中SendMessage自定义消息函数用法实例
  5. 理解JQuery中的data()使用方法
  6. 测试面试问道MySQL_Mysql精华总结,解决测试人员面试中碰到的一切Mysql问题(二)...
  7. 手把手教你设计交友网站【3】
  8. 【LaTeX笔记1】最全命令+符号
  9. 仪器检定是为了满足什么需求?为什么不直接全部校准或检定呢?
  10. SpringBoot签名验签
  11. Linux下的SD卡分区--解决sd卡分区损坏
  12. ctf音频yinxie_CTF牛刀小试合集
  13. eclipse安装GWT插件
  14. 现代大学英语精读第二版(第三册)学习笔记(原文及全文翻译)——6B - They Dared Cocaine—and Lost(尝试可卡因后,他们迷失了)
  15. 方法重写的 两同 两小 一大
  16. 【云原生 • Kubernetes】认识 k8s 网络、外部网络访问 k8s 内部服务
  17. 01时态(1):疑问句
  18. 镜头和相机的匹配问题
  19. cdh3.6.2集成zeppelin0.10.1及简单使用
  20. 安卓和IOS推广技巧汇总,app安卓推广、ios推广aso优化

热门文章

  1. C#自动实现Dll(OCX)控件注册的两种方法
  2. 关于xshell连接虚拟机和虚拟机连网
  3. 《为了你我愿意热爱整个世界》
  4. 异步社区本周半价电子书
  5. Spring Boot整合模板引擎jsp
  6. rsync服务器的配置
  7. [iOS Animation]-CALayer 图层几何学
  8. Django学习笔记(5)---ForeignKey
  9. 有关指针的数据类型的小结
  10. sqlnet.ora限制导致双机应用资源启动失败