数据、算法、算力是人工智能发展的三要素。数据决定了Ai模型学习的上限,数据规模越大、质量越高,模型就能够拥有更好的泛化能力。然而在实际工程中,经常有数据量太少(相对模型而言)、样本不均衡、很难覆盖全部的场景等问题,解决这类问题的一个有效途径是通过数据增强(Data Augmentation),使模型学习获得较好的泛化性能。

1 数据增强介绍

数据增强(Data Augmentation)是在不实质性的增加数据的情况下,从原始数据加工出更多的表示,提高原数据的数量及质量,以接近于更多数据量产生的价值。其原理是,通过对原始数据融入先验知识,加工出更多数据的表示,有助于模型判别数据中统计噪声,加强本体特征的学习,减少模型过拟合,提升泛化能力。

如经典的机器学习例子--哈士奇误分类为狼:通过可解释性方法,可发现错误分类是由于图像上的雪造成的。通常狗对比狼的图像里面雪地背景比较少,分类器学会使用雪作为一个特征来将图像分类为狼还是狗,而忽略了动物本体的特征。此时,可以通过数据增强的方法,增加变换后的数据(如背景换色、加入噪声等方式)来训练模型,帮助模型学习到本体的特征,提高泛化能力。需要关注的是,数据增强样本也有可能是引入片面噪声,导致过拟合。此时需要考虑的是调整数据增强方法,或者通过算法(可借鉴Pu-Learning思路)选择增强数据的最佳子集,以提高模型的泛化能力。

常用数据增强方法可分为:基于样本变换的数据增强及基于深度学习的数据增强。

2  基于样本变换的数据增强

样本变换数据增强即采用预设的数据变换规则进行已有数据的扩增,包含单样本数据增强和多样本数据增强。

2.1 单样本增强

单(图像)样本增强主要有几何操作、颜色变换、随机擦除、添加噪声等方法,可参见imgaug开源库。

2.2 多样本数据增强方法

多样本增强是通过先验知识组合及转换多个样本,主要有Smote、SamplePairing、Mixup等方法在特征空间内构造已知样本的邻域值。

  • Smote

Smote(Synthetic Minority Over-sampling Technique)方法较常用于样本均衡学习,核心思想是从训练集随机同类的两近邻样本合成一个新的样本,其方法可以分为三步:

1、 对于各样本X_i,计算与同类样本的欧式距离,确定其同类的K个(如图3个)近邻样本;

2、从该样本k近邻中随机选择一个样本如近邻X_ik,生成新的样本:

Xsmote_ik =  Xi  +  rand(0,1) ∗ ∣X_i − X_ik∣

3、重复2步骤迭代N次,可以合成N个新的样本。

# SMOTE
from imblearn.over_sampling import SMOTEprint("Before OverSampling, counts of label\n{}".format(y_train.value_counts()))
smote = SMOTE()
x_train_res, y_train_res = smote.fit_resample(x_train, y_train)
print("After OverSampling, counts of label\n{}".format(y_train_res.value_counts()))
  • SamplePairing

SamplePairing算法的核心思想是从训练集随机抽取的两幅图像叠加合成一个新的样本(像素取平均值),使用第一幅图像的label作为合成图像的正确label。

  • Mixup

Mixup算法的核心思想是按一定的比例随机混合两个训练样本及其标签,这种混合方式不仅能够增加样本的多样性,且能够使决策边界更加平滑,增强了难例样本的识别,模型的鲁棒性得到提升。其方法可以分为两步:

1、从原始训练数据中随机选取的两个样本(xi, yi) and (xj, yj)。其中y(原始label)用one-hot 编码。

2、对两个样本按比例组合,形成新的样本和带权重的标签

x˜ = λxi + (1 − λ)xj
y˜ = λyi + (1 − λ)yj

最终的loss为各标签上分别计算cross-entropy loss,加权求和。其中 λ ∈ [0, 1], λ是mixup的超参数,控制两个样本插值的强度。

# Mixup
def mixup_batch(x, y, step, batch_size, alpha=0.2):"""get batch data:param x: training data:param y: one-hot label:param step: step:param batch_size: batch size:param alpha: hyper-parameter α, default as 0.2:return:  x y """candidates_data, candidates_label = x, yoffset = (step * batch_size) % (candidates_data.shape[0] - batch_size)# get batch datatrain_features_batch = candidates_data[offset:(offset + batch_size)]train_labels_batch = candidates_label[offset:(offset + batch_size)]if alpha == 0:return train_features_batch, train_labels_batchif alpha > 0:weight = np.random.beta(alpha, alpha, batch_size)x_weight = weight.reshape(batch_size, 1)y_weight = weight.reshape(batch_size, 1)index = np.random.permutation(batch_size)x1, x2 = train_features_batch, train_features_batch[index]x = x1 * x_weight + x2 * (1 - x_weight)y1, y2 = train_labels_batch, train_labels_batch[index]y = y1 * y_weight + y2 * (1 - y_weight)return x, y

3  基于深度学习的数据增强

3.1 特征空间的数据增强

不同于传统在输入空间变换的数据增强方法,神经网络可将输入样本映射为网络层的低维向量(表征学习),从而直接在学习的特征空间进行组合变换等进行数据增强,如MoEx方法等。

3.2 基于生成模型的数据增强

生成模型如变分自编码网络(Variational Auto-Encoding network, VAE)和生成对抗网络(Generative Adversarial Network, GAN),其生成样本的方法也可以用于数据增强。这种基于网络合成的方法相比于传统的数据增强技术虽然过程更加复杂, 但是生成的样本更加多样。

  • 变分自编码器VAE

    变分自编码器(Variational Autoencoder,VAE)其基本思路是:将真实样本通过编码器网络变换成一个理想的数据分布,然后把数据分布再传递给解码器网络,构造出生成样本,模型训练学习的过程是使生成样本与真实样本足够接近。

# VAE模型
class VAE(keras.Model):...def train_step(self, data):with tf.GradientTape() as tape:z_mean, z_log_var, z = self.encoder(data)reconstruction = self.decoder(z)reconstruction_loss = tf.reduce_mean(tf.reduce_sum(keras.losses.binary_crossentropy(data, reconstruction), axis=(1, 2)))kl_loss = -0.5 * (1 + z_log_var - tf.square(z_mean) - tf.exp(z_log_var))kl_loss = tf.reduce_mean(tf.reduce_sum(kl_loss, axis=1))total_loss = reconstruction_loss + kl_lossgrads = tape.gradient(total_loss, self.trainable_weights)self.optimizer.apply_gradients(zip(grads, self.trainable_weights))self.total_loss_tracker.update_state(total_loss)self.reconstruction_loss_tracker.update_state(reconstruction_loss)self.kl_loss_tracker.update_state(kl_loss)return {"loss": self.total_loss_tracker.result(),"reconstruction_loss": self.reconstruction_loss_tracker.result(),"kl_loss": self.kl_loss_tracker.result(),}
  • 生成对抗网络GAN

    生成对抗网络-GAN(Generative Adversarial Network) 由生成网络(Generator, G)和判别网络(Discriminator, D)两部分组成, 生成网络构成一个映射函数GZX(输入噪声z, 输出生成的图像数据x), 判别网络判别输入是来自真实数据还是生成网络生成的数据。

# DCGAN模型class GAN(keras.Model):...def train_step(self, real_images):batch_size = tf.shape(real_images)[0]random_latent_vectors = tf.random.normal(shape=(batch_size, self.latent_dim))# G: Z→X(输入噪声z, 输出生成的图像数据x)generated_images = self.generator(random_latent_vectors)# 合并生成及真实的样本并赋判定的标签combined_images = tf.concat([generated_images, real_images], axis=0)labels = tf.concat([tf.ones((batch_size, 1)), tf.zeros((batch_size, 1))], axis=0)# 标签加入随机噪声labels += 0.05 * tf.random.uniform(tf.shape(labels))# 训练判定网络with tf.GradientTape() as tape:predictions = self.discriminator(combined_images)d_loss = self.loss_fn(labels, predictions)grads = tape.gradient(d_loss, self.discriminator.trainable_weights)self.d_optimizer.apply_gradients(zip(grads, self.discriminator.trainable_weights))random_latent_vectors = tf.random.normal(shape=(batch_size, self.latent_dim))# 赋生成网络样本的标签(都赋为真实样本)misleading_labels = tf.zeros((batch_size, 1))# 训练生成网络with tf.GradientTape() as tape:predictions = self.discriminator(self.generator(random_latent_vectors))g_loss = self.loss_fn(misleading_labels, predictions)grads = tape.gradient(g_loss, self.generator.trainable_weights)self.g_optimizer.apply_gradients(zip(grads, self.generator.trainable_weights))# 更新损失self.d_loss_metric.update_state(d_loss)self.g_loss_metric.update_state(g_loss)return {"d_loss": self.d_loss_metric.result(),"g_loss": self.g_loss_metric.result(),}

3.3 基于神经风格迁移的数据增强

神经风格迁移(Neural Style Transfer)可以在保留原始内容的同时,将一个图像的样式转移到另一个图像上。除了实现类似色彩空间照明转换,还可以生成不同的纹理和艺术风格。

神经风格迁移是通过优化三类的损失来实现的:

style_loss:使生成的图像接近样式参考图像的局部纹理;

content_loss:使生成的图像的内容表示接近于基本图像的表示;

total_variation_loss:是一个正则化损失,它使生成的图像保持局部一致。

# 样式损失
def style_loss(style, combination):S = gram_matrix(style)C = gram_matrix(combination)channels = 3size = img_nrows * img_ncolsreturn tf.reduce_sum(tf.square(S - C)) / (4.0 * (channels ** 2) * (size ** 2))# 内容损失
def content_loss(base, combination):return tf.reduce_sum(tf.square(combination - base))# 正则损失
def total_variation_loss(x):a = tf.square(x[:, : img_nrows - 1, : img_ncols - 1, :] - x[:, 1:, : img_ncols - 1, :])b = tf.square(x[:, : img_nrows - 1, : img_ncols - 1, :] - x[:, : img_nrows - 1, 1:, :])return tf.reduce_sum(tf.pow(a + b, 1.25))

3.4 基于元学习的数据增强

深度学习研究中的元学习(Meta learning)通常是指使用神经网络优化神经网络,元学习的数据增强有神经增强(Neural augmentation)等方法。

  • 神经增强

神经增强(Neural augmentation)是通过神经网络组的学习以获得较优的数据增强并改善分类效果的一种方法。其方法步骤如下:

1、获取与target图像同一类别的一对随机图像,前置的增强网络通过CNN将它们映射为合成图像,合成图像与target图像对比计算损失;

2、将合成图像与target图像神经风格转换后输入到分类网络中,并输出该图像分类损失;

3、将增强与分类的loss加权平均后,反向传播以更新分类网络及增强网络权重。使得其输出图像的同类内差距减小且分类准确。



往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑黄海广老师《机器学习课程》课件合集
本站qq群851320808,加入微信群请扫码:

阅读原文可访问GitHub源码

【机器学习】一文归纳AI数据增强之法相关推荐

  1. 【机器学习基础】一文归纳AI数据增强之法

    数据.算法.算力是人工智能发展的三要素.数据决定了Ai模型学习的上限,数据规模越大.质量越高,模型就能够拥有更好的泛化能力.然而在实际工程中,经常有数据量太少(相对模型而言).样本不均衡.很难覆盖全部 ...

  2. 一文盘点图数据增广 (Graph Data Augmentation) 近期进展

    ©作者 | 刘纪玺 单位 | 北邮GAMMA Lab 来源 | 北邮GAMMA Lab 本文旨在简要总结近期在 graph 领域新提出的数据增广方法,带领读者了解图数据增广的基本定义和最新进展. 简介 ...

  3. 【机器学习基础】一文归纳AI调参炼丹之法

    1  超参数优化 调参即超参数优化,是指从超参数空间中选择一组合适的超参数,以权衡好模型的偏差(bias)和方差(variance),从而提高模型效果及性能.常用的调参方法有: 人工手动调参 网格/随 ...

  4. 一文归纳Ai调参炼丹之法

    1 超参数优化 调参即超参数优化,是指从超参数空间中选择一组合适的超参数,以权衡好模型的偏差(bias)和方差(variance),从而提高模型效果及性能.常用的调参方法有: 人工手动调参 网格/随机 ...

  5. 数据增强之Mosaic数据增强的优点、Mixup,Cutout,CutMix的区别

    一.Mosaic data augmentation Mosaic数据增强方法是YOLOV4论文中提出来的,主要思想是将四张图片进行随机裁剪,再拼接到一张图上作为训练数据. 这样做有以下几个优点: 1 ...

  6. 嵌入式AI —— 6. 为糖葫芦加糖,浅谈深度学习中的数据增广

    没有读过本系列前几期文章的朋友,需要先回顾下已发表的文章: 开篇大吉 集成AI模块到系统中 模型的部署 CMSIS-NN介绍 从穿糖葫芦到织深度神经网络 又和大家见面了,上次本程序猿介绍了CMSIS- ...

  7. 达观数据CEO陈运文:“AI+RPA”如何赋能企业数字化转型

    以RPA为代表的数字化技术正在重新定义我们的工作方式,RPA与AI等技术深度融合,将发挥巨大价值.那么,对企业来说,如何利用"AI+RPA"为其数字化转型赋能?为此,<财资中 ...

  8. 机器学习17:用Keras实现图片数据增广的方法和实践

    Keras图片增强 CNN中图片具有平移不变形,旋转不变形,如下图,而在实际应用中训练数据常常不足, 或不均衡, 因此我们可以通过增强数据,扩展训练集. 我们可以对现有的数据,进行平移.翻转.旋转.缩 ...

  9. 【深度学习】基于深度学习的数据增广技术一览

    ◎作者系极市原创作者计划特约作者Happy 周末在家无聊,偶然兴心想对CV领域常用的数据增广方法做个简单的调研与总结,重点是AI时代新兴的几种反响还不错的方法.各种第三方与官方实现代码等.那么今天由H ...

最新文章

  1. Boost:使用find_if()算法来检测两个向量交叉的点
  2. SQL用户存在则更新不存在则插入
  3. R语言quantstrat包
  4. 模仿网易新闻客户端的滚动菜单
  5. java生成润乾报表,润乾报表----模板报表制作
  6. PCIe协议在具体实现时的大体框图
  7. DotNetBar TreeGx用法
  8. java实现并查集算法
  9. 90%企业都适用,搭建性能监控体系照抄就行
  10. 苹果唯冠邮件背后的隐情
  11. Zigbee物联网应用
  12. APP推广的渠道与运营模式分析
  13. 解决使用mp4v2封装的mp4文件在Wowza的hls上无法播放问题
  14. ul(有序列表)可以排序?
  15. 记录Google被和谐的日子
  16. sqlserver with(nolock)
  17. Google-Guice入门介绍
  18. 信用卡nbsp;nbsp;知识
  19. 【TWVRP】基于matlab模拟退火算法结合狼群算法求解带时间窗的车辆路径规划问题【含Matlab源码 1075期】
  20. QPSK与QDPSK调制与解调(待更新)

热门文章

  1. python小程序:备份文件
  2. 嵌套循环连接,哈希连接,排序合并连接(2015-2-4学习日记)
  3. 经典算法:牛顿迭代法求平方根
  4. 2793 [Poi2012]Vouchers
  5. URAL 1427. SMS(DP+单调队列)
  6. 27 网络通信协议 udp tcp
  7. P2184 【贪婪大陆】
  8. HDU-3480 Division (四边形不等式优化DP)
  9. 重温WEB开发系列(二)HTML HEAD
  10. JavaSE(十四)——网络编程(IP地址、端口号、TCP、UDP)