‍‍

作者 | 李秋键

编辑 | 夕颜

出品 | AI科技大本营(ID:rgznai100)

图像修复是计算机视觉领域的一个重要任务,在数字艺术品修复、公安刑侦面部修复等种种实际场景中被广泛应用。图像修复的核心挑战在于为缺失区域合成视觉逼真和语义合理的像素,要求合成的像素与原像素具有一致性。

传统的图像修复技术有基于结构和纹理两种方法。基于结构的图像修复算法具有代表性的是 Bertalmio 等提出的BSCB模型和 Shen 等提出的基于曲率扩散的修复模型 CDD。基于纹理的修复算法中具有代表性的有 Criminisi 等提出的基于 patch 的纹理合成算法。这两种传统的修复算法可以修复小块区域的破损,但是在破损区域越来越大时, 修复效果则直线下降, 并且修复结果存在图像模糊、结构扭曲、纹理不清晰和视觉不连贯等问题。

近年来,随着硬件设备等计算能力的不断提升, 以及深度学习技术在图像翻译、图像超分辨率、图 像修复等计算机视觉领域的迅速发展, 采用深度学习技术的修复方法能够捕获图像的高层语义信息, 与传统的修复方法相比, 具有良好的修复效果。故今天我们使用Python实现Bringing Old Photo Back to Life算法实现对图像和视频的修复。得到的模型评估效果如下:

基本介绍

传统的图像修复技术可以分为基于结构的图像修复技术和基于纹理的图像修复技术两大类。其中,变分偏微分方程模型是基于结构的图像修复技术的典型代表,由变分模型和偏微分方程模型组成。纹理合成是基于纹理的图像修复技术的典型代表。传统数字图像修复技术分类如下图所示。

传统的图像修复方法结果中存在语义信息不完整、图像模糊等问题,无法达到目前对图像修复的要求。而基于深度学习的图像修复算法能够捕获更多图像的高级特征,修复结果较好,所以经常用于图像修复。目前基于生成式对抗网络的图像修复是深度学习图像修复领域的一大研究热点,为图像修复技术的发展奠定了坚实的基础。而我们使用的算法就是基于深度学习的微软开源的Bringing Old Photo Back to Life去修复图像。

1.1 环境要求

本次环境使用的是Python3.6.5+windows平台。主要用的库有:

  • PyTorch模块。PyTorch是一个基于Torch的Python开源机器学习库,用于自然语言处理等应用程序。它主要由Facebookd的人工智能小组开发,不仅能够 实现强大的GPU加速,同时还支持动态神经网络,这一点是现在很多主流框架如TensorFlow都不支持的。PyTorch提供了两个高级功能:1.具有强大的GPU加速的张量计算(如Numpy) 2.包含自动求导系统的深度神经网络 除了Facebook之外,Twitter、GMU和Salesforce等机构都采用了PyTorch。

  • pillow模块。Pillow是Python里的图像处理库(PIL:Python Image Library),提供了了广泛的文件格式支持,强大的图像处理能力,主要包括图像储存、图像显示、格式转换以及基本的图像处理操作等。

  • Numpy模块。Numpy是应用Python进行科学计算时的基础模块。它是一个提供多维数组对象的Python库,除此之外,还包含了多种衍生的对象(比如掩码式数组(masked arrays)或矩阵)以及一系列的为快速计算数组而生的例程,包括数学运算,逻辑运算,形状操作,排序,选择,I/O,离散傅里叶变换,基本线性代数,基本统计运算,随机模拟等等。

  • collections这个模块实现了特定目标的容器,以提供Python标准内建容器 dict、list、set、tuple 的替代选择。Counter:字典的子类,提供了可哈希对象的计数功能;defaultdict:字典的子类,提供了一个工厂函数,为字典查询提供了默认值;OrderedDict:字典的子类,保留了他们被添加的顺序;namedtuple:创建命名元组子类的工厂函数;deque:类似列表容器,实现了在两端快速添加(append)和弹出(pop);ChainMap:类似字典的容器类,将多个映射集合到一个视图里面。

修复模型算法

本文所使用的Bringing Old Photo Back to Life算法流程分别为全局修复、脸部检测、脸部特征加强和特征融合。其中隐空间修复网络采用局部-全局视野融合,其中全局支路采用 nonlocal 模块大大增强处理视野。我们对局部破损图片建立了数据集,训练网络预测破损区域,该破损区域显式的送入 nonlocal 模块,并设置模块感受野为非破损区域

2.1 全局视野修复

本文的模型主要由三个部分组成两个变分自编码器(variational-autoencoder,VAE)和一个latent space 映射网络,每个部分都可以看作是单独的一个模块。下面将介绍网络设计的思想和不同部分的作用。

模型使用了两个 VAE:

第一个 VAE 用于将合成的老照片(模糊、磨损)进行编码到隐空间。

第二个 VAE 用于将对应的干净的老照片进行编码。

然后,在隐空间学习从污损的老照片到干净照片的映射。

就这样,实现了一个老照片的修复算法。

这个有点像在学习控制图片清晰、磨损的一个特征表示,通过控制这个特征,可以达到修复破损照片的目的。

关键代码如下:

model = networks.UNet(in_channels=1, out_channels=1, depth=4, conv_num=2, wf=6, padding=True, batch_norm=True, up_mode="upsample",with_tanh=False, sync_bn=True, antialiasing=True,
)
for image_name in imagelist:idx += 1print("processing", image_name)results = []scratch_image = Image.open(os.path.join(config.test_path, image_name)).convert("RGB")w, h = scratch_image.sizetransformed_image_PIL = data_transforms(scratch_image, config.input_size)scratch_image = transformed_image_PIL.convert("L")scratch_image = tv.transforms.ToTensor()(scratch_image)scratch_image = tv.transforms.Normalize([0.5], [0.5])(scratch_image)scratch_image = torch.unsqueeze(scratch_image, 0)scratch_image = scratch_image.to(config.GPU)P = torch.sigmoid(model(scratch_image))P = P.data.cpu()tv.utils.save_image((P >= 0.4).float(),os.path.join(output_dir, image_name[:-4] + ".png",),nrow=1,padding=0,normalize=True,)transformed_image_PIL.save(os.path.join(input_dir, image_name[:-4] + ".png"))

2.2 局部脸部修复加强

脸部特征的加强使用pixpix2模型对脸部二次修复。其中, Pix2Pix模型由Isola等于2017年提出, 它由U-Net和PatchGAN组成, 分别充当Pix2Pix模型中的生成器和判别器。该模型使用户只需提供一个草图便能生成一个与之对应的高质量图像; 对应到图像着色工作中, 网络接收真实图像的亮度信息, 对亮度信息进行特征提取并预测图像颜色值。

关键代码:

def create_optimizers(self, opt):G_params = list(self.netG.parameters())if opt.use_vae:G_params += list(self.netE.parameters())if opt.isTrain:D_params = list(self.netD.parameters())beta1, beta2 = opt.beta1, opt.beta2if opt.no_TTUR:G_lr, D_lr = opt.lr, opt.lrelse:G_lr, D_lr = opt.lr / 2, opt.lr * 2optimizer_G = torch.optim.Adam(G_params, lr=G_lr, betas=(beta1, beta2))optimizer_D = torch.optim.Adam(D_params, lr=D_lr, betas=(beta1, beta2))return optimizer_G, optimizer_D
def generate_fake(self, input_semantics, degraded_image, real_image, compute_kld_loss=False):z = NoneKLD_loss = Noneif self.opt.use_vae:z, mu, logvar = self.encode_z(real_image)if compute_kld_loss:KLD_loss = self.KLDLoss(mu, logvar) * self.opt.lambda_kldfake_image = self.netG(input_semantics, degraded_image, z=z)assert (not compute_kld_loss) or self.opt.use_vae, "You cannot compute KLD loss if opt.use_vae == False"return fake_image, KLD_loss
def discriminate(self, input_semantics, fake_image, real_image):if self.opt.no_parsing_map:fake_concat = fake_imagereal_concat = real_imageelse:fake_concat = torch.cat([input_semantics, fake_image], dim=1)real_concat = torch.cat([input_semantics, real_image], dim=1)fake_and_real = torch.cat([fake_concat, real_concat], dim=0)discriminator_out = self.netD(fake_and_real)pred_fake, pred_real = self.divide_pred(discriminator_out)return pred_fake, pred_real

源代码:https://pan.baidu.com/s/1lAzmWvAEyxi6RFsLpA5l_Q

提取码:osuh

推荐阅读
  • 后疫情时代,RTC期待新的场景大爆

  • 蓝色起源载人火箭7月首飞,贝索斯即将实现儿时愿望

  • 干货!机器学习中,如何优化数据性

  • 你的 AI 算法模型安全吗?来 AI 安全测试基准平台测试

点个“在看”,宠我一下

基于微软开源深度学习算法,用 Python 实现图像和视频修复相关推荐

  1. 基于FPGA的深度学习算法加速

    学习总结--基于FPGA的深度学习算法加速 1.深度学习算法加速的方法 2.为什么用FPGA来加速YOLOV2 3.FPGA简介 4.PYNQ框架与HLS加速理论 5.实验结果 1.深度学习算法加速的 ...

  2. 深度学习在计算机视觉领域(图像,视频,3D点云,深度图等)应用全览

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨黄浴@知乎 来源丨https://zhuanlan.zhihu.com/p/55747295 编 ...

  3. 10倍!微软开源深度学习优化库DeepSpeed,可训练1000亿参数模型

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :微软 AI博士笔记系列推荐 ...

  4. 微软开源深度学习优化库 DeepSpeed 连登 GitHub 趋势榜!

    [编者按]近期,深度学习社区发生了一件大事:微软研究院发布了图灵自然语言生成模型T-NLG,据称这是史上最大的自然语言处理模型.T-NLG拥有170亿个参数,性能远胜于其他大型深度学习语言模型,例如B ...

  5. 微软开源深度学习优化库 DeepSpeed,可训练 1000 亿参数的模型

    人工智能的最新趋势是,更大的自然语言模型可以提供更好的准确性,但是由于成本.时间和代码集成的障碍,较大的模型难以训练.微软日前开源了一个深度学习优化库 DeepSpeed,通过提高规模.速度.可用性并 ...

  6. 基于预训练深度学习算法的番茄作物病害分类

    1.期刊信息 2.研究内容 从PlantVillage数据集获得的番茄叶图像(6种疾病和一个健康类别)作为输入提供给两个基于深度学习的架构,即AlexNet和VGG16 net.分析了图像数量和超参数 ...

  7. AI 进军考古学!科学家用深度学习算法发现了近 100 万年前人类用火的证据,登上PNAS...

    来源:AI科技评论 本文约1600字,建议阅读8分钟 100万年前的人类可能曾在以色列的一个遗址处做过饭! 火的使用是智人进化的一个关键因素,火不仅可以用于创造更复杂的工具,还可让食物变得更安全,从而 ...

  8. Python基于深度学习算法实现图书推荐系统项目实战

    说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取. 1.项目背景 在线推荐系统是许多电子商务网站的事情.推荐系统广泛地向最适合其口 ...

  9. 基于深度学习OpenCV与python进行字符识别

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 当我们在处理图像数据集时,总是会想有没有什么办法以简单的文本格式检 ...

最新文章

  1. P1843 奶牛晒衣服(贪心)
  2. php待办事项设计,如何为待办事项列表应用程序设计ViewModel?
  3. RUP大讲堂(第一讲):RUP简介及软件过程改进
  4. python在线编辑器编译excel_python在线编译器的简单原理及简单实现代码
  5. GT Transceiver中的重要时钟及其关系(7)TXUSRCLK以及TXUSRCLK2的产生
  6. CI 如何获取get请求过来的数据
  7. 利用Traefik+Docker构建可弹性扩展的微服务或服务集群
  8. 螺钉装弹垫平垫机器人_一种批量组装螺钉、弹垫、平垫的工装及使用方法_2
  9. STM32之SPI从机例程
  10. datatime,time,string转换和format格式化处理
  11. docker运行jar包_Jenkins+Docker+Springboot单机版持续集成部署
  12. angularjs--resource
  13. 利用WinRar压缩和解压缩文件
  14. 逐渐消失的行业-MP3
  15. 蚁群算法(Ant Colony Optimization)
  16. Spring源码剖析 循环注入
  17. 如何使用python批量压缩图片_使用python脚本批量压缩图片大小
  18. 最全IDC数据中心知识讲解(一)
  19. 一个大一程序员的反思
  20. 【JZOJ 5405】【NOIP2017提高A组模拟10.10】Permutation

热门文章

  1. Linux:检查当前运行级别的五种方法
  2. 以太坊代币空投合约的实现
  3. 博客域名改为http://bobli.cnblogs.com
  4. MySQL性能与磁盘读写的关系及优化策略
  5. 常用C/C++开源库
  6. 自动驾驶规划术语与搜索空间的几种方法
  7. “error : unknown filesystem”的解决办法
  8. spark调优(一)-开发调优,数据倾斜,shuffle调优
  9. checkedListBox的使用
  10. void *指针的加减运算