机器之心报道

深度卷积神经网络已经被广泛用于显著目标检测,并获得了 SOTA 的性能。来自加拿大阿尔伯塔大学的研究者曾提出了边界感知显著目标检测网络 BASNet,并衍生出了一系列流行的工具。今年,该团队又提出了一种用于肖像画生成的深度网络架构 U^2-Net,不仅所需的计算开销较少,而且生成肖像画具有丰富的细节。

从人脸图片生成艺术肖像画的 AI 应用不在少数,但效果惊艳的不多。上面这张图片中的输入 - 输出结果,来源于一个 GitHub 热门项目 U^2-Net (U square net),开源至今已经获得了 1.7K 的 star 量。

这项研究来自阿尔伯塔大学的一个团队,论文此前已被国际模式识别大会 ICPR 会议接收。

  • 论文链接:https://arxiv.org/pdf/2005.09007.pdf

  • 项目地址:https://github.com/NathanUA/U-2-Net

最近,研究者又将其应用于人脸肖像画的生成中,并基于 APDrawingGAN 数据集为此类任务训练了新的模型。不管是儿童肖像还是成年男性、成年女性,都能获得相当细致的生成结果:

近年来,显著性目标检测广泛应用于视觉跟踪和图像分割等领域。随着深度卷积神经网络(CNN)的发展,尤其是全卷积网络(FCN)在图像分割领域的兴起,显著性目标检测技术得到了明显的改善。

大多数 SOD 网络的设计都有一个共同的模式,也就是说,它们专注于充分利用现有的基础网络提取的深度特征,例如 Alexnet、VGG、ResNet、ResNeXt、DenseNet 等。但这些主干网络最初都是为图像分类任务设计的。它们提取代表语义含义的特征,而不是代表局部性细节或全局对照信息,这对于显著性目标检测至关重要。并且这些网络通常需要在 ImageNet 数据上进行预训练,效率比较低。

为了解决这个问题,阿尔伯塔大学的研究者提出了 U^2-Net。研究团队在论文中介绍,U^2-Net 是一个简单而强大的深度网络架构,其架构是两层嵌套的 U 形结构。该研究提出的 ReSidual U-block(RSU)中混合了不同大小的接收域,因此它能够从不同尺度中捕获更多的语境信息。此外,RSU 中使用了池化操作,因此在不显著增加计算成本的情况下,也能够增加整个架构的深度。

方法

在方法部分,研究者不仅详细阐释了其提出的残差 U-block 以及利用该 U-block 构建的嵌套 U 形架构,而且还描述了该网络的监督策略和训练损失。

残差 U-block

受到 U-Net 网络的启发,研究者提出了新型残差 U-block(ReSidual U-block, RSU),以捕获阶段内的多尺度特征。RSU-L (C_in, M, C_out)的结构如下图 2 (e)所示,其中 L 表示编码器中的层数,C_in、C_out 分别表示输入和输出通道,M 表示 RSU 内层通道数。

本研究提出的 RSU 与现有其他卷积块的结构对比

具体而言,RSU 主要有三个组成部件,分别是一个输入卷积层、一个高度为 L 的类 U-Net 对称编码器 - 解码器结构以及一个通过求和来融合局部和多尺度特征的残差连接。

为了更好地理解设计理念,研究者在下图 3 中对 RSU 与原始残差块进行了比较。结果显示,RSU 与原始残差块的最大区别在于 RSU 通过一个类 U-Net 的结构替换普通单流卷积,并且通过一个由权重层转换的局部特征替换原始特征。

更值得注意的是,得益于 U 形结构,RSU 的计算开销相对较少,因为大多数运算在下采样特征图中应用。下图 4 展示了 RSU 与其他特征提取模块的计算成本曲线图:

U^2-Net 架构

研究者提出了一种用于显著目标检测的新型堆叠 U 形结构 U^n-Net。从理论上讲,n 可以设置成任意正整数,以构建单级或多级嵌套 U 形结构。研究者将 n 设置为 2 以构建二级嵌套 U 型结构 U^2-Net,具体如下图所示:

具体而言,U^2-Net 主要由三部分组成:(1)6 阶段编码器;(2)5 阶段解码器;(3)与解码器阶段和最后编码器阶段相连接的显著图融合模块。

总的来说,U^2-Net 的设计构建了具有丰富多尺度特征以及较低计算和内存成本的深度架构。此外,由于 U^2-Net 架构仅在 RSU 块上构建,并且没有使用任何经过图像分类处理的预训练主干网络,所以在性能损失不大的情况下 U^2-Net 可以灵活且方便地适应不同的工作环境。

监督

在训练过程中,研究者使用了类似于整体嵌套边缘检测(Holistically-nested edge detection, HED)的深度监督算法。训练过程定义如下:

训练过程努力将上述公式 (1) 的整体损失最小化。在测试过程中,研究者选择将融合输出 l_fuse 作为最终显著图。

福利时间

奖品:5本《从零开始构建深度前馈神经网络》

  • 前馈神经网络是深度学习的重要知识,其核心思想是反向传播与梯度下降。本书从极易理解的示例开始,逐渐深入,帮助读者充分理解并熟练掌握反向传播与梯度下降算法,为后续学习打下坚实的基础。

  • 本书延续理论与实践并重的风格,先以图文方式讲解算法思想,再以Python+NumPy实现算法,然后再给出TensorFlow实现的版本,帮助读者不断加深对核心的算法理解,同时提升实际动手能力,从而锻炼将算法思想转化为程序代码的能力。

参与方式:本文文末留言,分享2021年的小总结,留言最走心的5位小伙伴赠送1本(免费包邮);

开奖时间:2022年01月13号11点(如有问题可联系小助手wx:MLAPython

PS:感谢机械工业出版社~

照片秒变艺术肖像画,Github标星5.2K!相关推荐

  1. 清华大学提出APDrawingGAN,人脸照片秒变艺术肖像画

    作者 | 刘永进教授 来源 | 转载自数据派THU(ID:DatapiTHU) 清华大学提出APDrawingGAN,该项工作被CVPR 2019录取为oral paper.CVPR是计算机视觉和人工 ...

  2. 经典回顾 | 人脸照片秒变艺术肖像画:清华大学提出APDrawingGAN CVPR 2019 oral paper...

    该项工作被CVPR 2019录取为oral paper.CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇,其中oral paper288篇,仅占全部投稿 ...

  3. 人脸照片秒变艺术肖像画:清华大学提出APDrawingGAN CVPR 2019 oral paper

    该项工作被CVPR 2019录取为oral paper.CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇,其中oral paper288篇,仅占全部投稿 ...

  4. CVPR 2019 | 人脸照片秒变艺术肖像画:清华大学提出APDrawingGAN

    该项工作被CVPR 2019录取为oral paper.CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇,其中oral paper288篇,仅占全部投稿 ...

  5. 清华大学提出APDrawingGAN:人脸照片秒变艺术肖像画,已被CVPR 2019录取

    作者:刘永进教授 肖像画作为人物画的一种,其简约的风格以及以形写神.迁想妙得的创作方法获得了大家的喜爱. 虽然看起来只需简单几笔,但通过线条来捕捉一个人的外表特征捕捉到人的个性和情感并不容易. 即使是 ...

  6. 【干货】Github标星1.2K,Visual Transformer 最全最新资源,包含期刊、顶会论文

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨梁定康 编辑丨极市平台 导读 给大家分享一个超全面的visua ...

  7. CVPR 2019 | APDrawingGAN:人脸秒变艺术肖像画

    作者丨武广 学校丨合肥工业大学硕士生 研究方向丨图像生成 固定的应用场景对于泛化的图像翻译模型来说存在着一定的局限性,往往需要根据实际的需求对网络和细节进行设计以达到特定的效果.图像转换模型中 本篇的 ...

  8. python人像绘制_CVPR 2019 | APDrawingGAN:人脸秒变艺术肖像画

    作者丨武广 学校丨合肥工业大学硕士生 研究方向丨图像生成 固定的应用场景对于泛化的图像翻译模型来说存在着一定的局限性,往往需要根据实际的需求对网络和细节进行设计以达到特定的效果.图像转换模型中 Cyc ...

  9. oppo安卓面试题,万字Android技术类校招面试题汇总,GitHub标星3.2K

    一.开始的开始 **Android框架体系架构(高级UI+FrameWork源码)**这块知识是现今使用者最多的,我们称之Android2013~2016年的技术,但是,即使是这样的技术,Androi ...

最新文章

  1. dojo 学习笔记之dojo.query - query(id) 与query(class)的差别
  2. webservice传送XML大小估算
  3. 前端学习(1316):静态资源
  4. 2019-06-02 15:27:20
  5. [BJDCTF2020]Cookie is so stable
  6. webassembly类型_WebAssembly 现状与实战
  7. vue-seamless-scroll在小米手机上显示不正常 显示出两行的问题
  8. cmd mysql utf8_MySQL中UTF8编码的数据在cmd下乱码
  9. awstats 网站访问统计工具安装
  10. 阶段3 2.Spring_09.JdbcTemplate的基本使用_6 JdbcDaoSupport的使用以及Dao的两种编写方式...
  11. 数字水印--给我的文件充当保护神
  12. pxe无盘服务器教程,[教程]Synology+PXE挂载iSCSI网络无盘启动Win7(08.04更新)
  13. 微软云计算-私有云概述
  14. Chrome 鼠标左击右击无效解决办法
  15. python自动化plc_PYTHON – 让“Monty 语言”进入自动化行业:第 4 部分
  16. org.springframework.beans.factory.NoSuchBeanDefinitionException: No matching bean of type [org.hiber
  17. 写脚本的作用是什么?做自媒体,什么样的视频一定要写脚本?
  18. 物资管理系统的设计与实现
  19. C# 获取可执行文件EXE(文件夹)路径大全
  20. javaweb之Html/Hss/JavaScript/BootStrap小结

热门文章

  1. Java 创建带有套接字的简单代理服务器示例
  2. 普顿外汇告诉大家如何在外汇市场保持良好的心态?
  3. JZ38 字符串的排列
  4. Java对接微盟开放平台
  5. 镭速介绍关于高速数据传输!
  6. 如何把一个数字x最右侧那个1拿出来,变成00...10..的格式
  7. mysql默认存储引擎_MySQL5.5 所支持的存储引擎
  8. 高版本linux安装gamit,Ubuntu Linux下安装GAMIT10.6
  9. 2021年真无线蓝牙耳机排名:人气排名前十的蓝牙耳机推荐
  10. 1-乙基-3-甲基咪唑醋酸盐([EMIM][Ac]);甲基三辛基醋酸铵[N(1,8,8,8)][Ac]齐岳离子液体