上一期中讲解了图像分类和目标检测中的数据增强的区别和联系,这期讲解数据增强的进阶版- yolov4中的Mosaic数据增强方法以及CutMix。

前言

Yolov4的mosaic数据增强参考了CutMix数据增强方式, 是CutMix数据增强方法的改进版。不同于一般的数据增强的方式是对一张图片进行扭曲、翻转、色域变化,CutMix数据增强方式是对两张图片进行拼接变为一张新的图片,然后将拼接好了的图片传入到神经网络中去学习,如下图。

CutMix的处理方式比较简单,对一对图片做操作,简单讲就是随机生成一个裁剪框Box,裁剪掉A图的相应位置,然后用B图片相应位置的ROI放到A图中被裁剪的区域形成新的样本,计算损失时同样采用加权求和的方式进行求解。就是将图A一部分区域cut掉但不填充0像素,然后随机填充训练集中的其他数据的区域像素值,分类结果按一定的比例分配。

下图是使用CutMix方法对常见的数据集进行数据增强的表现,可以看到有明显的提升。

Mosaic数据增强方法

mosaic数据增强则利用了四张图片,对四张图片进行拼接,每一张图片都有其对应的框框,将四张图片拼接之后就获得一张新的图片,同时也获得这张图片对应的框框,然后我们将这样一张新的图片传入到神经网络当中去学习,相当于一下子传入四张图片进行学习了。论文中说这极大丰富了检测物体的背景!且在标准化BN计算的时候一下子会计算四张图片的数据!如下图所示:

实现过程

这里以对Voc2007数据集进行随机数据增强为例进行讲解,大致分为四步:

第一步:从Voc数据集中每次随机读取四张图片

第二步:分别对四张图片进行翻转(对原始图片进行左右的翻转)、缩放(对原始图片进行大小的缩放)、色域变化(对原始图片的明亮度、饱和度、色调进行改变)等操作。

操作完成之后然后再将原始图片按照 第一张图片摆放在左上,第二张图片摆放在左下,第三张图片摆放在右下,第四张图片摆放在右上四个方向位置摆好。

3、进行图片的组合和框的组合

完成四张图片的摆放之后,我们利用矩阵的方式将四张图片它固定的区域截取下来,然后将它们拼接起来,拼接成一 张新的图片,新的图片上含有框框等一系列的内容。

如上图可以看到我们将四张图片进行拼接的时候有很明显的边缘,横线和竖线就是分割的线,这个分割线是由我们人为事先预先设定好了的,在代码中由min_offset_x和min_offset_y去选取分割的线。

拼接完成之后得到的新的一张图片,我们可以看到拼接的图片的左上角的图相对于原图来说是少了的,因为拼接的时候被它右边的图覆盖掉了,拼接的时候很有可能也会把另外的图中的框框给覆盖掉,这些问题都会在最后的对框框进行处理:当图片的框框(或者图片本身)超出两张图片之间的边缘(也就是我们设置的分割线)的时候,我们就需要把这个超出分割线的部分框框或者图片的部分)处理掉,进行边缘处理

代码实现

from PIL import Image, ImageDraw
import numpy as np
from matplotlib.colors import rgb_to_hsv, hsv_to_rgb
import mathdef rand(a=0, b=1):return np.random.rand() * (b - a) + adef merge_bboxes(bboxes, cutx, cuty):merge_bbox = []for i in range(len(bboxes)):for box in bboxes[i]:tmp_box = []x1, y1, x2, y2 = box[0], box[1], box[2], box[3]if i == 0:if y1 > cuty or x1 > cutx:continueif y2 >= cuty and y1 <= cuty:y2 = cutyif y2 - y1 < 5:continueif x2 >= cutx and x1 <= cutx:x2 = cutxif x2 - x1 < 5:continueif i == 1:if y2 < cuty or x1 > cutx:continueif y2 >= cuty and y1 <= cuty:y1 = cutyif y2 - y1 < 5:continueif x2 >= cutx and x1 <= cutx:x2 = cutxif x2 - x1 < 5:continueif i == 2:if y2 < cuty or x2 < cutx:continueif y2 >= cuty and y1 <= cuty:y1 = cutyif y2 - y1 < 5:continueif x2 >= cutx and x1 <= cutx:x1 = cutxif x2 - x1 < 5:continueif i == 3:if y1 > cuty or x2 < cutx:continueif y2 >= cuty and y1 <= cuty:y2 = cutyif y2 - y1 < 5:continueif x2 >= cutx and x1 <= cutx:x1 = cutxif x2 - x1 < 5:continuetmp_box.append(x1)tmp_box.append(y1)tmp_box.append(x2)tmp_box.append(y2)tmp_box.append(box[-1])merge_bbox.append(tmp_box)return merge_bboxdef get_random_data(annotation_line, input_shape, random=True, hue=.1, sat=1.5, val=1.5, proc_img=True):'''random preprocessing for real-time data augmentation'''
h, w = input_shapemin_offset_x = 0.4min_offset_y = 0.4scale_low = 1 - min(min_offset_x, min_offset_y)scale_high = scale_low + 0.2image_datas = []box_datas = []index = 0place_x = [0, 0, int(w * min_offset_x), int(w * min_offset_x)]place_y = [0, int(h * min_offset_y), int(w * min_offset_y), 0]for line in annotation_line:# 每一行进行分割line_content = line.split()# 打开图片image = Image.open(line_content[0])image = image.convert("RGB")# 图片的大小iw, ih = image.size# 保存框的位置box = np.array([np.array(list(map(int, box.split(',')))) for box in line_content[1:]])# image.save(str(index)+".jpg")# 是否翻转图片flip = rand() < .5if flip and len(box) > 0:image = image.transpose(Image.FLIP_LEFT_RIGHT)box[:, [0, 2]] = iw - box[:, [2, 0]]# 对输入进来的图片进行缩放new_ar = w / hscale = rand(scale_low, scale_high)if new_ar < 1:nh = int(scale * h)nw = int(nh * new_ar)else:nw = int(scale * w)nh = int(nw / new_ar)image = image.resize((nw, nh), Image.BICUBIC)# 进行色域变换hue = rand(-hue, hue)sat = rand(1, sat) if rand() < .5 else 1 / rand(1, sat)val = rand(1, val) if rand() < .5 else 1 / rand(1, val)x = rgb_to_hsv(np.array(image) / 255.)x[..., 0] += huex[..., 0][x[..., 0] > 1] -= 1x[..., 0][x[..., 0] < 0] += 1x[..., 1] *= satx[..., 2] *= valx[x > 1] = 1x[x < 0] = 0image = hsv_to_rgb(x)image = Image.fromarray((image * 255).astype(np.uint8))# 将图片进行放置,分别对应四张分割图片的位置dx = place_x[index]dy = place_y[index]new_image = Image.new('RGB', (w, h), (128, 128, 128))new_image.paste(image, (dx, dy))image_data = np.array(new_image) / 255# Image.fromarray((image_data*255).astype(np.uint8)).save(str(index)+"distort.jpg")index = index + 1box_data = []# 对box进行重新处理if len(box) > 0:np.random.shuffle(box)box[:, [0, 2]] = box[:, [0, 2]] * nw / iw + dxbox[:, [1, 3]] = box[:, [1, 3]] * nh / ih + dybox[:, 0:2][box[:, 0:2] < 0] = 0box[:, 2][box[:, 2] > w] = wbox[:, 3][box[:, 3] > h] = hbox_w = box[:, 2] - box[:, 0]box_h = box[:, 3] - box[:, 1]box = box[np.logical_and(box_w > 1, box_h > 1)]box_data = np.zeros((len(box), 5))box_data[:len(box)] = boximage_datas.append(image_data)box_datas.append(box_data)img = Image.fromarray((image_data * 255).astype(np.uint8))for j in range(len(box_data)):thickness = 3left, top, right, bottom = box_data[j][0:4]draw = ImageDraw.Draw(img)for i in range(thickness):draw.rectangle([left + i, top + i, right - i, bottom - i], outline=(255, 255, 255))img.show()# 将图片分割,放在一起cutx = np.random.randint(int(w * min_offset_x), int(w * (1 - min_offset_x)))cuty = np.random.randint(int(h * min_offset_y), int(h * (1 - min_offset_y)))new_image = np.zeros([h, w, 3])new_image[:cuty, :cutx, :] = image_datas[0][:cuty, :cutx, :]new_image[cuty:, :cutx, :] = image_datas[1][cuty:, :cutx, :]new_image[cuty:, cutx:, :] = image_datas[2][cuty:, cutx:, :]new_image[:cuty, cutx:, :] = image_datas[3][:cuty, cutx:, :]# 对框进行进一步的处理new_boxes = merge_bboxes(box_datas, cutx, cuty)return new_image, new_boxesdef normal_(annotation_line, input_shape):'''random preprocessing for real-time data augmentation'''
line = annotation_line.split()image = Image.open(line[0])box = np.array([np.array(list(map(int, box.split(',')))) for box in line[1:]])iw, ih = image.sizeimage = image.transpose(Image.FLIP_LEFT_RIGHT)box[:, [0, 2]] = iw - box[:, [2, 0]]return image, boxif __name__ == "__main__":with open("2007_train.txt") as f:lines = f.readlines()a = np.random.randint(0, len(lines))# index = 0# line_all = lines[a:a+4]# for line in line_all:#     image_data, box_data = normal_(line,[416,416])#     img = image_data#     for j in range(len(box_data)):#         thickness = 3#         left, top, right, bottom  = box_data[j][0:4]#         draw = ImageDraw.Draw(img)#         for i in range(thickness):#             draw.rectangle([left + i, top + i, right - i, bottom - i],outline=(255,255,255))#     img.show()#     # img.save(str(index)+"box.jpg")#     index = index+1# 传入四张图片# line = lines[a:a + 4]line = lines[0:4]image_data, box_data = get_random_data(line, [416, 416])img = Image.fromarray((image_data * 255).astype(np.uint8))for j in range(len(box_data)):thickness = 3left, top, right, bottom = box_data[j][0:4]draw = ImageDraw.Draw(img)for i in range(thickness):draw.rectangle([left + i, top + i, right - i, bottom - i], outline=(255, 255, 255))img.show()# img.save("box_all.jpg")

所有实现代码以及完整注释,关注我下载使用,更多有关python、深度学习和计算机编程和电脑知识的精彩内容,可以关注微信公众号:码农的后花园

mosaic数据增强_YoloV4当中的Mosaic数据增强方法(附代码详细讲解)相关推荐

  1. 每天6亿人在看《延禧攻略》?大数据告诉你哪家视频网站VIP值得买(附代码)

    导读:随着<延禧攻略>的播出,魏璎珞.富察皇后等各位后宫小主的命运时刻牵动着各位观众的心.同时爱奇艺也因为该剧的大火,收获了单日超过6亿的播放量.我们此次将对比各大视频网站2018年截止到 ...

  2. dijkstra算法代码_数据科学家需要知道的5种图算法(附代码)

    在本文中,我将讨论一些你应该知道的最重要的图算法,以及如何使用Python实现它们. 作者:AI公园 导读 因为图分析是数据科学家的未来. 作为数据科学家,我们对pandas.SQL或任何其他关系数据 ...

  3. 大数据知识图谱项目——基于知识图谱的医疗知识问答系统(详细讲解及源码)

    基于知识图谱的医疗知识问答系统 一.项目概述 知识图谱是将知识连接起来形成的一个网络.由节点和边组成,节点是实体,边是两个实体的关系,节点和边都可以有属性.知识图谱除了可以查询实体的属性外,还可以很方 ...

  4. 数据增强之图像旋转及坐标对应(附代码)

    海康威视研究院ImageNet2016竞赛经验分享 深度学习之图像的数据增强 data augmentation 数据增强方法总结 图片的数据增强(Data Augmentation)方法 openc ...

  5. 面试系列一:精选大数据面试真题10道(混合型)-附答案详细解析

    本公众号(五分钟学大数据)将推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型 ...

  6. 爬取 4400 条淘宝洗发水数据,拯救你的发际线!(附代码和数据集)

    本文通过淘宝"防脱发洗发水"爬取和分析,来提供爬取海量淘宝商品信息的思路,除了基础爬虫外,还应该思考拿到类似的商品数据之后如何清洗,以及作为一个分析者可以从什么维度去分析. 作者 ...

  7. kaggle点赞最多的 泰坦尼克号数据竞赛模型融合方法(附代码)

    听说很多大佬都是从kaggle上获取的知识, 加工整理成一套属于自己的竞赛体系 今年7月份我开始参加大数据竞赛, 现在差不多有10场比赛了, 都是结构化比赛. 小的比赛还能进Top名次, 大点的比赛就 ...

  8. Python数据可视化 - 使用Dash库制作杭州数据分析师岗位招聘情况可交互网页报告(附代码下载)

    dash dash不同于flask或者Django,具备少量的前端知识即可制作可视化网页,下图为本人制作的数据分析师岗位招聘情况可视化网页. 文末附网盘下载经过清洗后的数据与可视化网页的代码. 交互 ...

  9. 睿智的目标检测28——YoloV4当中的Mosaic数据增强方法

    睿智的目标检测28--YoloV4当中的Mosaic数据增强方法 学习前言 代码下载 什么是Mosaic数据增强方法 实现思路 全部代码 1.数据增强 2.调用代码 学习前言 哈哈哈!我又来数据增强了 ...

最新文章

  1. Caffe中对cifar10执行train操作
  2. 饶毅:脑、物理、化学、 生物、心理认知的交叉研究
  3. linux top p 乱码,将Linux top命令输入到指定文件时的乱码问题
  4. web安全---XSS漏洞之标签使用2
  5. JAVA基础知识(四):final关键字
  6. git log格式化日志
  7. Mutable and Immutable Variables in Python
  8. 30天自制操作系统 定时器
  9. 中国遥感卫星详细参数信息
  10. 2022-2028年中国奶茶店行业竞争策略研究及未来前景展望报告
  11. iis下屏蔽php notice,apache、iis规则屏蔽拦截蜘蛛抓取
  12. SAP中利用标准成本报表计算成品人工成本及组成实例
  13. mysql程序选项有两种通用形式:长选项和短选项_MySQL程序概述
  14. 计算机桌面分区,明基XL2430T如何使用桌面分区?
  15. 金融交易领域之外汇产品
  16. Windows下如何将文件打包压缩成 .tar.gz格式
  17. u8链接提示计算机拒绝,用友u8软件error错误拒绝访问
  18. cmd操作txt文件
  19. 数据挖掘(一)频繁模式挖掘算法的实现和对比
  20. USB device hot plug detection

热门文章

  1. 创建目录_Word创建自动目录,你会了吗?
  2. 在建工地扬尘在线监控系统推荐_综执 | 针对工地扬尘、噪音监控系统问题对各在建工地开展集中约谈...
  3. 公众号跳转小程序首次没有数据_小程序如何从“0”开始运营,变成获客神器...
  4. 使用Spyder控制台(console)执行带参数脚本和带参数的debug模式
  5. matlab fir overflow,实战fir脚本打ipa包
  6. dart基础之异步编程
  7. ADC采样间隔问题+TRGO作为ADC的触发源头
  8. open打开新窗口时的选项
  9. qml WebEngineView zoomFactor 性质设置问题
  10. 6章:常用工具类以及函数