Industrial Style Transfer with Large-scale Geometric Warping and Content Preservation论文解读

作者:Jinchao Yang1, Fei Guo1, Shuo Chen2, Jun Li1y, Jian Yang1
1PCA Lab, Nanjing University of Science and Technology 2RIKEN
fyangjinchao,feiguo,junli,csjyangg@njust.edu.cn shuo.chen.ya@riken.jp
Contributes equally yCorresponding author&project lead
代码:github

论文框架

论文涉及数据集

  1. metropolitan museum of art collection:纽约大都会博物馆艺术收藏;
    下载链接:https://github.com/metmuseum/openaccess
    (可以到https://www.metmuseum.org/art/collection/search?searchField=All&showOnly=openAccess&sortBy=relevance&pageSize=
    下载公共领域和不受限制的艺术品图像
    或者参考https://github.com/trevorfiez/The-Metropolitan-Museum-of-Art-Image-Downloader
    进行对应图像下载)

  2. Zalando:德国电子商城,提供Fashion-MNIST数据集;
    数据集:提供衣物图像数据,包含60000个样本的训练集和10000个样本的测试集;
    下载链接:https://github.com/zalandoresearch/fashion-mnist
    或https://pjreddie.com/projects/coco-mirror/

  3. Wiki,MS-COCO:微软发布的大型的、丰富的对象检测、分割和字幕数据集;
    数据集:包含33万张图像、80个目标类别、每张图像5个标题、25万张带有关键点的人像;
    下载链接:https://cocodataset.org/#download

论文翻译


图 1. 我们提出了一种用于视觉产品设计的工业风格转移方法。 我们的方法通过将一种产品的形状(目标)和艺术风格参考转移到另一种产品(源)来创建新的产品外观(例如徽标和 Day&Night 瓶)。

Abstract

我们提出了一种新颖的风格迁移方法,可以快速创建外观漂亮的新视觉产品​​,供工业设计师参考。 给定一个源产品、一个目标产品和一个艺术风格的图像,我们的方法产生一个扭曲源形状以模仿目标几何风格的神经扭曲场和一个将艺术风格转移到扭曲源的神经纹理变换网络 产品。 我们的模型工业风格转移(InST)由==大规模几何翘曲(LGW)和兴趣一致性纹理转移(ICTT)==组成。LGW 旨在探索源产品和目标产品的形状掩码之间的无监督转换,以拟合大规模形状翘曲。 此外,我们引入了一个掩码平滑正则化项,以防止源产品细节的突然变化。ICTT 引入了一个兴趣正则化术语,以在使用艺术风格图像进行风格化时保持扭曲产品的重要内容。 广泛的实验结果表明,InST 在多个视觉产品设计任务上实现了最先进的性能,例如公司的蜗牛标志和经典瓶子(请参见图 1)。 据我们所知,我们是第一个扩展神经风格迁移方法来创建工业产品外观的人。 代码位于 https://jcyang98.github.io/InST/home.html

1. Introduction

视觉产品设计 (VPD) 已被公认为工业产品设计领域的核心角色,因为消费者的选择在很大程度上取决于市场上新产品的视觉外观 [12]。 VPD 通常通过遵循不同的外观角色(例如,审美、功能和象征)来设计新颖的产品 [11]。 例如,设计师通常会参考飞机和汽车,以融合它们的飞行和驾驶功能以及吸引人的审美,来制作飞行汽车的美丽外观。 然而,由于VPD过程中的人类智能,很难快速创造出高质量的产品外观,这在很大程度上依赖于设计师的创意能力。 幸运的是,神经风格迁移 (NST) [16, 21, 28, 38] 旨在将一两个参考图像的艺术和几何风格转移到内容图像中,因为艺术风格转换是 适合审美价值,一些几何形状的变换可以获得功能和象征价值,如北京国家体育场(鸟巢和建筑)。 因此,我们寻求一种风格转移公式来自动生成许多新产品的视觉外观候选,以供工业设计师参考。
然而,由于以下两个挑战,大多数现代 NST 方法 [14,25,32,59,60],包括几何 NST [28, 38],都很难或不可能扩展到直接设计视觉产品外观。 一种是在不同的对象(或产品)之间缩放大几何形状,因为设计新产品通常是融合两个具有非常不同几何形状的对象,例如飞行汽车(飞机和汽车)和蝴蝶门(蝴蝶的翅膀和汽车门)。 另一个是 NST 在风格化过程中通常会使内容变得更糟,例如 AdaIN [21] 和 WCT [33],导致产品设计师无法同时参考丰富的内容和新颖的几何形状来产生创意灵感。
为了应对这些挑战,我们开发了一种工业风格迁移 (InST) 方法来创建新的产品外观,如图 2 所示。给定源产品(或对象)、目标产品和艺术参考图像,InST 旨在迁移 目标产品的工业几何形状和源产品的参考图像的艺术风格。 与现有的 NST 方法相比,InST 由大规模几何翘曲(LGW)和兴趣一致性纹理转移(ICTT)组成。 与小规模几何 NST [28, 38] 不同,LGW 使用形状一致性损失在源产品和目标产品的形状掩码之间设计了一个神经变形场。 这与它们的纹理像素之间的翘曲场不同,因为它会导致更糟糕的优化,即失效变形。 此外,我们探索了一个掩码平滑正则化项,以防止源产品细节的突然变化。 在掩码的帮助下,LGW 在两个产品之间的大规模变形中表现良好,即使它们在语义上是不相关的。
ICTT 旨在通过使用艺术参考图像在风格化时保留新产品的有趣内容。 受 SuperPoint 网络 [15] 的启发,我们提出了一个基于兴趣点和描述符的兴趣正则化 (IR) 项,以约束艺术风格化,以最大限度地减少新产品与其风格化产品之间的感知差异。 与最相关的工作 ArtFlow [3] 不同,我们设计了有趣的感知约束来防止更糟糕的内容,并且我们的 IR 可以进一步提高 ArtFlow 的性能。 总的来说,这项工作的贡献总结如下:

  • 对于视觉产品设计过程中的大规模几何差异,我们探索了一种基于掩模的大规模几何变形模块,将几何形状风格从一个对象产品转移到另一个对象产品,即使语义不相关。
  • 对于风格化过程中的产品内容维护,我们引入了一种兴趣一致性纹理传输,使用由 SuperPoint 网络提取的兴趣点和描述符进行有趣的正则化,以保留内容细节。
  • 将 LGW 与 ICTT 相结合,我们提出了一个工业风格转移框架,以快速生成新产品的视觉外观,例如公司徽标、飞行汽车和瓷器时装。 据我们所知,这项工作可以开辟风格转移的新领域,设计工业产品外观。

2. Related Work

在本节中,我们主要回顾视觉产品设计、纹理风格转移和几何风格转移,因为我们将风格转移技术扩展到一个新的应用,产品外观设计任务。

2.1. Visual Product Design
消费者感知[5, 6],视觉产品设计(VPD)可以被认为是设计师(公司)和消费者之间的沟通过程[12]。 在这个过程中,设计师旨在通过改变几何形状、艺术风格等,通过产品外观传达特定的信息,消费者在看到产品外观时向设计师提供对产品改进的反应[41]。 通常,对于消费者来说,有四种流行的产品外观类型:审美印象、功能效果、符号联想和人体工程学信息[11,12,43]。
然而,这是一个手工劳动过程,通信和产品设计成本很高,因为它需要许多反馈循环,并且设计人员需要花费大量时间来改进每个循环中的产品设计 [12]。 这种昂贵的成本促使我们探索一种快速的设计方法。更重要的是,由于高质量的产品外观取决于设计师的创造能力,它鼓励我们产生许多产品创新来激发设计师的灵感。因此,我们开发了一种新颖的风格转移方法来创建许多视觉产品外观候选者,以帮助或启发设计师。
2.2. Texture Style Transfer.
作为一个热门话题,纹理风格转移由来已久。 最初的工作 [16, 17, 34, 45] 关注迭代优化。 后来,许多基于前馈网络的作品 [9, 26, 52, 62] 提高了质量和数量,例如视觉效果和计算时间。 虽然大大提高了纹理风格的转移,这些方法通过经过训练的模型仅转移一种风格。很多作品,包括 AdaIN [21]、WCT [33]、AvatarNet [48]、LinearWCT [32]、SANet [42]、MST [63] 和最近的 [20、31、35、37、54、55、57 , 58],被扩展到任意风格转移。 然而,这些方法仅限于保留内容图像的细节。 风格迁移中内容变差的问题引起了众多学者的关注。 引入了一种结构保持算法[10]来保持内容图像的结构。ArtFlow [3] 通过可逆神经流从内容图像中保留更多细节。 但是,它们的视觉质量仍有待提高。 我们提出了一种由 SuperPoint 网络 [15] 计算的兴趣正则化,它将内容图像作为输入并输出相应的兴趣点和描述符以使内容更好。
2.3. Geometric Style Transfer
传统的几何匹配方法涉及检测和匹配手工制作的兴趣点,例如 SIFT [40]、形状上下文匹配 [4] 或 HOG [13]。虽然这些方法对于实例级匹配效果很好,但它对外观变化和噪声干扰很敏感。后来,卷积神经网络由于能够提取强大且鲁棒的特征而在几何匹配中流行起来。 目前最好的方法遵循[46]提出的由特征提取、匹配层和回归网络组成的网络范式,并在此基础上进行各种改进[18,27,38,46,47]。 以上所有方法都作用于两个 RGB 图像,并尝试估计一个扭曲场以直接匹配它们。尽管在语义相似的图像之间表现良好,但它们无法处理具有大规模翘曲的不同类别的对象。 在没有语义相关性的情况下,计算两个 RGB 图像之间的相关性是不合理的,定义匹配度量也很困难。DST [28] 通过匹配 NBB 关键点 [2] 和估计薄板样条 (TPS) [7] 变换来实现翘曲。它也仅限于类级别的变形,因为 NBB 只能提取相似对象之间的关键点。一些方法仅限于专门的语义类,例如人脸 [61]、漫画 [49] 或文本 [60]。 与上述几何匹配方法相比,我们甚至在不同类别的任意对象之间也实现了大规模扭曲。 总体而言,与上述方法不同,我们旨在拓宽产品设计任务的风格迁移应用,并且我们的方法获得了令人惊叹的工业产品外观来激发设计师的灵感。

图 2. 我们的工业风格转移的管道。 我们的方法通过将源 S 扭曲到目标 T 来创建新产品 N,并通过将参考图像 A 的艺术风格转移到新产品 N 来生成最终产品外观 O。

3. Industrial Style Transfer

在本节中,我们开发了一个工业风格转移(InST)框架来创建图 2 中的新视觉产品​​外观,由两个模块组成:3.1 小节中的大规模几何翘曲(LGW)和兴趣一致性纹理转移(ICTT) 在第 3.2 小节中。 我们用 SSS表示源产品(或对象),用TTT表示目标产品 ,用 AAA表示艺术参考图像,用 NNN 表示使用 LGW 的新变形产品,用 OOO 表示最终输出。
3.1. Largescale GeometricWarping
LGW 的目标是扭曲源产品 SSS 以匹配目标产品 TTT 的几何形状,以生成新产品,即使存在大规模的形状差异和不相关的语义。 为了实现这一目标,我们在形状掩码之间设计了一个神经变形场,其灵感来自光流方法、循环全对场变换 (RAFT) [51]。 特别是,图 3 显示了我们的 LGW 模块,包括一个掩模 RAFT 和一个无监督的翘曲损失。
3.1.1 Mask RAFT Network
Mask RAFT网络被分为以下几个阶段:(1)掩模提取,(2)特征提取,(3)位置嵌入,(4)相关计算,(5)循环更新。 更多细节描述如下。
掩模提取:我们采用对象分割网络,表示为Fm:RH×W×3→0,1H×W)→((repeatit3times)→0,1H×W×3)F_m:R^{H×W×3}→{0,1}^{H×W)}→((repeat it 3times)→ {0,1}^{H×W×3} )Fm​:RH×W×3→0,1H×W)→((repeatit3times)→0,1H×W×3) ,提取产品的掩膜。 给定产品 SSS 和 TTT 作为输入,它们的掩码分别为 Ms=Fm(S)和Mt=Fm(T)Ms = Fm(S) 和 Mt = Fm(T)Ms=Fm(S)和Mt=Fm(T)。 在这里,我们使用了一个固定的 Resnet50+FPN+PointRend(基于点的渲染)网络,该网络已经在 [30] 中进行了预训练。
特征提取: 使用卷积编码器网络从输入掩码 MsM_sMs​ 和 MtM_tMt​ 中提取掩码特征,表示为 Ff:0,1H×W×3→RH/8×W/8×D)F_f:{0,1}^{H×W×3}→R^{H/8×W/8×D})Ff​:0,1H×W×3→RH/8×W/8×D),其中 DDD 设置为 256。为了计算 MsM_sMs​ 和 MtM_tMt​ 之间的相关性,该网络类似于 RAFT [51] 的特征编码器网络,由 6 个残差块组成,2 个在 分别为 1=2、1=4 和 1=8 分辨率。然后,我们有掩码多尺度特征,Fs=Ff(Ms)F_s = F_f (M_s)Fs​=Ff​(Ms​) 和 Ft=Ff(Mt)F_t = F_f (M_t)Ft​=Ff​(Mt​)。
位置嵌入: 由于缺乏颜色信息,源掩码和目标掩码之间有太多相似或相同的特征,导致相关计算和变形较弱。 为了避免这种情况,相邻位置信息可以改善变形场,因为它更新了对象产品的每个像素(位置)的变化。 因此,我们通过使用流行的残差操作来考虑特征图 FsF_sFs​和 FtF_tFt​ 的位置嵌入 PPP [53],并将新的位置+特征定义为:

相关计算和定期更新。在这里,我们遵循 RAFT [51] 的计算视觉相似性和迭代更新来计算多尺度相关性并循环更新翘曲场。在本文中,这两个步骤表示为
总的来说,我们的掩模 RAFT 网络被描述为

其中 R 是迭代次数,我们在实现中设置 R = 3。

3.1.2 UnsupervisedWarping Loss
mask RAFT 网络通过构建形状一致性损失和平滑正则化在无监督环境中进行训练。
形状一致性损失。 基于翘曲场估计ω\omegaω在等式 (2),我们通过空间变换器[23]中提到的差分双线性采样得到扭曲的源掩码{ωr(Ms)r=1R}{\{\omega_r(M_s)}^R_{r=1}\}{ωr​(Ms​)r=1R​}。 给定目标掩码MtM_tMt​,这个ℓ1\ell_1ℓ1​损失定义为
Lshape=∑r=1Rαr∥,ωr(Ms)−Mt∥L_shape=\sum^R_{r=1}\alpha_r\lVert,\omega_r(M_s)-M_t\rVertLs​hape=r=1∑R​αr​∥,ωr​(Ms​)−Mt​∥
其中αr\alpha_rαr​用于平衡变形程度。
平滑正则化。 为了避免混沌变形,需要进一步限制warping field的采样方向,以最大限度地保留图像的内容细节源对象。 特别地,我们设计了一个平滑蒙版,如图4所示,其生成公式表示为
Msmooth=Mcompress∣Mexpand=(Medge&Ms)∣(Ms⊕Mt&Mt)M_{smooth}=M_{compress}|M_{expand}=(M_{edge} \& M_s)|(M_s \oplus M_t\&M_t)Msmooth​=Mcompress​∣Mexpand​=(Medge​&Ms​)∣(Ms​⊕Mt​&Mt​)

图 4. 给定两种形状,我们为压缩(右上)和扩展(右下)这两个部分设计了不同的平滑蒙版。 中间的平滑蒙版是我们在平滑正则化中使用的。

其中∣|∣、 &\&& 和⊕\oplus⊕表示逻辑析取、合取和 XOR,MedgeM_{edge}Medge​ 表示目标对象乘积的边。 MedgeM_{edge}Medge​ 是通过所有一个内核的卷积运算计算的,Medge=Cov(Mt,ker)M_{edge}= Cov(M_t,ker)Medge​=Cov(Mt​,ker) ,其中 ker=[1]kxkx3ker = [1]^{kxk x3}ker=[1]kxkx3,kkk 是预定义的内核大小,我们设置 k=9k = 9k=9。(更多细节是 在补充材料中提供。)因为 Msmooth∈0,1HxWx3M_{smooth}\in {0,1}^HxWx3Msmooth​∈0,1HxWx3在三个通道中具有相同的掩码图,其中一个通道用M∈0,1HxW\Mu \in{0,1}^HxWM∈0,1HxW 表示。 给定扭曲场估计 {ωr(Ms)r=1R}{\{\omega_r(M_s)}^R_{r=1}\}{ωr​(Ms​)r=1R​},ℓ2\ell_2ℓ2​正则化 M\MuM 定义为
Lsmooth=∑r=1RβrLsmooth(ωrM)L_{smooth}=\sum^R_{r=1}\beta_r L_{smooth}(\omega_r \Mu)Lsmooth​=r=1∑R​βr​Lsmooth​(ωr​M)
其中βr\beta_rβr​表示不同warp field的内容保留程度, Lsmooth(ωrM)=L_{smooth}(\omega_r\Mu)=Lsmooth​(ωr​M)=

上述项是经线场上的一阶平滑度! 通过约束坐标 (i; j) 周围的水平、垂直和对角邻域的位移。 它驱动源对象的纹理内容在变形后靠近其邻域。 通过将 LshapeL_{shape}Lshape​ 与 LsmoothL_{smooth}Lsmooth​ 相结合,翘曲损失被描述为
Loverall=Lshape+γLsmoothL_overall=L_shape+\gamma L_{smooth}Lo​verall=Ls​hape+γLsmooth​
其中 γ=1\gamma=1γ=1 控制每个术语的重要性

3.2. InterestConsistency Texture Transfer
在LGW生成新产品N后,ICTT的目标是通过转移N的艺术风格,创造出具有N重要内容细节的风格化产品外观O。使用神经风格迁移 (NST) 方法参考图像 A 到 N。 为了实现这一目标,我们在图 5 中引入了一个兴趣正则化(IR)项,以基于 SuperPoint 网络 [15] 保持 O 和 N 的有趣内容之间的相似性,因为它可以有效地计算兴趣点位置及其相关描述符。
NST 通常是通过最小化 NST 损失来训练图像转换网络 F,表示为 LNST,包括内容和纹理样式损失。 在这项工作中,我们考虑了两种流行的算法,AdaIN [21] 和 LinearWCT [32],以及一种最相关的方法,ArtFlow [3]。
IR是通过SuperPoint网络控制N和O的感知差异,记为S(⋅)S(·)S(⋅),输出一个H W大小65通道的兴趣点头,P 2 RH W 65,描述符头H W 尺寸和 256 个通道,KaTeX parse error: Undefined control sequence: \inR at position 2: D\̲i̲n̲R̲^HxWx256。 然后我们有 (PN;DN)=S(N)(P_N;D_N) = S(N)(PN​;DN​)=S(N) 和 (PO;DO)=S(O)P_O;D_O) = S(O)PO​;DO​)=S(O)。 IR定义如下:
LIR=LP(PN,PO)+λLD(DN,DO)L_{IR}=L_P(P_N,P_O)+\lambda L_D(D_N,D_O)LIR​=LP​(PN​,PO​)+λLD​(DN​,DO​)
其中 λ=0:00005\lambda= 0:00005λ=0:00005。 LPL_PLP​ 是 2 范数的平方,即

其中 PhwNP^N_{hw}PhwN​ 和 PhwOP^O_{hw}PhwO​ 是分别属于 PNP_NPN​ 和 POP_OPO​ 的 65 维向量。 LDL_DLD​ 是一个铰链损失[15],正边距 mp=1m_p = 1mp​=1,负边距 mn=0.2m_n = 0.2mn​=0.2,即 LD(DN,DO)=L_D(D_N,D_O) =LD​(DN​,DO​)=



图 5. 兴趣一致性纹理转移。 它由用于艺术风格转换的 NST 方法和用于通过兴趣点约束保存内容的 SuperPoint 网络组成。

4. Experiments

在本节中,我们进行了广泛的实验来评估我们的 InST 方法的视觉产品设计能力,例如公司徽标、瓶子、瓷器时装和飞行汽车。 补充材料中提供了更多产品设计比较。
4.1. Experimental Settings
数据集。 由源和目标产品(或对象)和艺术风格图像组成。 在 [56] 之后,通过开放访问 API [1] 从大都会艺术博物馆收藏中选择源产品,并使用 PointRend [30] 获得其分割掩码。 我们使用从 Zalando 数据集 [24] 收集的衣服作为目标产品,并使用 VITON [19] 获得它们的分割掩码。 艺术风格图像是 WikiArt 数据集 [8]。此外,MS-COCO 数据集 [36] 也被视为 ICTT 模块中用于训练网络的内容图像。 输入图像的大小调整为 512 512。 每个图像被随机裁剪为 256 256 用于训练。
训练。 由于我们的模型包括 LGW 和 ICTT 模块,我们的训练计划分为三个步骤。 首先,使用源产品和目标产品来训练LGW的warping网络。 超参数设置为 f rg3r =1 = f0:1; 0:2; 方程式中的 1g。 (3)、f rg3r =1 = f0:1; 0:05; 方程式中的 0:01g。 (5), 和 = 1 在等式。 (7)。 其次,使用艺术风格图像和作为内容图像的 MS-COCO 来训练 ICTT 的艺术传输网络。 在方程式中,超参数设置为 = 0:00005。 (8) 和 = 1 在等式。 (11)。 第三,我们使用收集的数据集共同优化变形和艺术传输网络。 在我们的实验中,我们训练这三个步骤进行 50k/60k/10k 迭代,批量大小为 16/2/2,Adam [29] 优化器的学习率为 0.001/初始 0.0001,衰减为 0.00001/0.0001。 在单个 GTX 2080Ti GPU 上训练大约需要 10/12/8 小时。

4.2. Main Results
为了证明所提出的 InST 具有创建具有美妙视觉外观的新产品的几何和纹理转移能力,我们将其与最近的两种几何转移方法,例如 DST [28] 和 GTST [38] 以及三种纹理转移方法进行了比较 ,例如,AdaIN [21]、LinearWCT [32] 和 ArtFlow(内容保存)[3]。
视觉比较。 我们从三个方面定性地展示新的视觉产品:(i)几何翘曲,(ii)纹理转移,(iii)它们的组合。
几何翘曲。 图 S7 显示了几何风格迁移算法的新产品设计结果。 例如,圆形地球和魔方分别被转移到 Twitter、Apple、Meta、McDonald’s 和 Jordan 的 logo 中。 与几何方法相比,

图 6. 使用几何风格转移方法的视觉产品设计结果,例如 DST [28]、GTST [38] 和我们的 InST。 与 DST 和 GTST 相比,我们在汽车和飞机之间的中间结果对产品设计人员具有更多的参考价值,因为它们类似于产品的俯视图(例如 Terrafugia 和 AeroMobil-4.01)

图 7. 使用纹理风格转移方法的内容保存结果,例如 AdaIN [21]、LinearWCT [32] 和 ArtFlow [3]。

例如,DST 和 GTST,我们的 LGW 模块可以更好地匹配目标的几何形状,更好地保持源的纹理内容。 他们失败的原因是DST和GTST通过使用对应的关键点[28]和学习小规模的翘曲场[38]在两个对象之间只有很少的语义关系,导致在面对大规模几何时结果更差。 形状。 相比之下,我们设计了一个平滑的蒙版翘曲场,以适应视觉产品设计中的大规模翘曲。
纹理转移。 图 7 显示了纹理风格转移算法的内容保存,例如 AdaIN、Linear-WCT 和 ArtFlow。 我们可以观察到,我们的 IR 正则化可以改进所有算法以保留更多内容细节,因为它认为兴趣点是相似的。 这与 ArtFlow 非常不同,因为它考虑了可逆的神经流和无偏的特征转移。
几何和纹理转移。 我们根据最先进的 GTST [38],结合几何和纹理风格转移来评估具有美观外观的整体产品设计。 图 1 显示了我们的 InST 方法是创建精美的产品外观,例如 Apple 和 Twitter 的蜗牛标志。 此外,无花果。 图 8 和图 9 还显示了更多的产品设计结果。 与 GTST 相比,我们的方法可以提供更大规模的变形并保留源对象(或产品)的更多细节。
定量比较。 除了上述视觉比较,我们还提供了 LGW 和 IR 模块的两个定量比较。 首先,我们使用平均交叉交叉 (mIoU) 评估几何翘曲性能,这是语义分割的流行指标 [39]。 在表 1 中,我们看到 LGW 的 mIoU 分数高于 DST 和 GTST。 这意味着翘曲产品更好地匹配目标的几何等。 其次,类似于[3],内容和风格化图像之间的结构相似性指数(SSIM)被认为是衡量细节保存性能的指标。 表 2 报告说,这些使用我们的 IR 术语的方法具有更高的 SSIM 分数,并且可以保留更详细的信息,而无需额外的测试时间。
用户研究。 我们进行了一项用户研究,以评估所提出的 InST 算法对现有方法的效果。我们从几何扭曲、内容维护及其组合的角度将评估分为三组,每组包括十个选项。我们总共收集了 114 个用户的 3420 张选票,每个组获得 1140 张选票。 表 3 报告了具体投票的结果。 鉴于源产品和目标产品,91.5% 的用户报告说我们的 LGW 网络更好地匹配目标的几何形状,而 GTST [38] 和 DST [28] 仅为 5.3% 和 3.2%。 在内容维护评估中,66.9% 的用户认为我们的 ICTT 模块比相应的纹理风格迁移方法维护了更多的内容细节 [3,21,32]。 最后,在从上述两个方面评估整体效果时,我们提出的算法占 1140 票的 88.2%,而 GTST [38] 占 11.8%。 总体而言,我们的结果在所有方面和评估方法中都是最受欢迎的。

图 8. 使用几何和纹理风格转移方法的视觉标志设计结果,例如 GTST [38] 和我们的 InST。

图 9. 使用几何和纹理风格转移方法的视觉产品设计结果,例如 GTST [38] 和我们的 InST。


4.3. Ablation Study
由于上述小节已经提供了ICTT的LWG和IR的比较实验,我们对LWG中mask RAFT网络的位置嵌入进行了消融实验。我们通过训练没有该组件的LGW模块来测试位置嵌入的重要性 . 图 10 显示了三个循环更新的比较结果。 位置嵌入实现了更好的性能,因为这样的操作增强了相邻位置的相关性。

图 10. 位置嵌入的消融研究。

5. Discussion

在本节中,我们将讨论三个问题,以更好地理解我们的掩模 RAFT 和我们的 InST 方法的局限性。 此外,补充材料中还提供了潜在的应用。
为什么 RAFT [51] 适用于几何翘曲任务? 解释的原因有三个。 1)光流估计被广泛应用于通过学习扭曲场[22、39、44、50、51]来估计连续视频帧中对象的两个移动几何之间的扭曲。 2)与光流估计类似,语义变换方法[27]已被用于训练相似对象之间的几何翘曲场,称为GTST [38],它优于DST [28]。 3) RAFT [51] 获得了 ECCV 2020 的最佳论文奖,是最先进的。
我们为什么要设计掩模翘曲场? 一个原因是当一个对象的 RGB 像素在语义上不相关或它们的形状有很大差异时(例如蜗牛和 Twitter 徽标),很难或不可能直接扭曲一个对象的 RGB 像素以匹配另一个对象。 另一个原因是两个掩码之间的差异低于纹理 RGB 图像,从而更容易优化。 我们用 RGB 图像及其掩码输入训练我们的 LGW 模块,并在图 11 中显示损失曲线。很明显,使用掩码输入比 RGB 具有更低的损失和更快的收敛速度。 为了进一步比较,我们还在图 11 中分别展示了它们的可视化结果,显然,掩模 RAFT 比基于 RGB 的 RAFT 具有更好的变形。
RAFT 和 mask RAFT 有什么区别? 与 RAFT [51] 相比,我们的面具 RAFT 有以下四个不同之处。 首先,我们设计了一个无监督损失和一个掩模平滑度来学习一个大规模的翘曲场,而RAFT 在有监督的环境中探索了一个小规模的光流场。 其次,在 RAFT 之前,我们引入了一个掩码提取阶段,以从其 RGB 图像中获取对象(或产品)掩码。 第三,我们提出了一种位置嵌入,用于增强相邻位置相关性的特征提取。 第四,我们使用目标的特征^Ft,而不是使用另一个网络进行特征提取。总体而言,我们的蒙版 RAFT 可以更好地扭曲大型几何形状。
限制。 在这里,我们讨论几何翘曲的局限性。 因为我们的目的是实现产品(或物体)之间的大规模翘曲场,它有一点语义对应,所以我们不依赖语义信息来引导翘曲场。 当输入对共享语义属性时,我们的方法可能会产生违反直觉的结果。 例如,在图 12 中,我们的 LGW 方法尝试匹配形状而不考虑​​内部语义对齐,例如将眼睛与眼睛对齐。

图 11. 我们的 LGW 模块的损失与 RGB 和掩模输入。

图 12. 限制:原则上的限制是相似对象之间的语义对应。

6. Conclusion

在本文中,我们提出了一种用于视觉产品设计任务的工业风格迁移方法。 我们的方法构建了一个几何变换场来创建一个新产品,并进一步学习了一个风格变换网络,将参考图像的艺术风格转移到新产品上。 值得一提的是,我们的方法扭曲了源产品以模仿目标产品的几何形状,即使它们在语义上不相关。 大量实验表明,我们的方法优于最先进的风格转移算法,尤其是具有挑战性的大规模几何形状。 我们还将风格转移管道应用到一些产品设计任务中,例如令人惊叹的标志、漂亮的瓶子、飞行汽车和瓷器时装。 希望我们的工作能够开辟一条途径,帮助或启发设计师通过使用风格转移技术设计新的工业产品。

Industrial Style Transfer with Large-scale Geometric Warping and Content Preservation论文解读相关推荐

  1. 【尺度不变性】An Analysis of Scale Invariance in Object Detection – SNIP 论文解读

    [尺度不变性]An Analysis of Scale Invariance in Object Detection – SNIP 论文解读 前言 本来想按照惯例来一个overview的,结果看到1篇 ...

  2. CVPR 2020 | 《Learning to Transfer Texture from Clothing Images to 3D Humans》 论文解读

    作者和机构 德国马普所,SMPL的论文也出自该单位,三作Gerard也是SMPL论文的作者 解决的问题 通过服装的正面和背面图实时生成3D模型 动机 该研究有助于3D人体渲染,生成数据以供网络学习,虚 ...

  3. 吴恩达深度学习课程deeplearning.ai课程作业:Class 4 Week 4 Art Generation with Neural Style Transfer

    吴恩达deeplearning.ai课程作业,自己写的答案. 补充说明: 1. 评论中总有人问为什么直接复制这些notebook运行不了?请不要直接复制粘贴,不可能运行通过的,这个只是notebook ...

  4. 15.深度学习练习:Deep Learning Art: Neural Style Transfer

    本文节选自吴恩达老师<深度学习专项课程>编程作业,在此表示感谢. 课程链接:https://www.deeplearning.ai/deep-learning-specialization ...

  5. 吴恩达深度学习4.4练习_Convolutional Neural Networks_Art Generation with Neural Style Transfer

    转载自吴恩达老师深度学习课程作业notebook Deep Learning & Art: Neural Style Transfer Welcome to the second assign ...

  6. 可逆网络风格迁移-解决内容泄漏问题 [CVPR 2021] ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows

    [CVPR 2021] ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows Jie An1∗   Siyu Huang ...

  7. 项目总结四:神经风格迁移项目(Art generation with Neural Style Transfer)

    1.项目介绍 神经风格转换 (NST) 是深部学习中最有趣的技术之一.它合并两个图像, 即 内容图像 C(content image) 和 样式图像S(style image), 以生成图像 G(ge ...

  8. [Style Transfer]——Perceptual Losses for Real-Time Style Transfer and Super-Resolution

    Perceptual Losses for Real-Time Style Transfer and Super-Resolution 基于感知损失函数的实时风格转换和超分辨重建 from ECCV2 ...

  9. Paper之BigGAN:《Large Scale Gan Training For High Fidelity Natural Image Synthesis》翻译与解读

    Paper之BigGAN:<Large Scale Gan Training For High Fidelity Natural Image Synthesis>翻译与解读 目录 效果 1 ...

  10. 经典论文重读---风格迁移篇(一):Image Style Transfer Using Convolutional Neural Networks

    核心思想 采用深层卷积网络提取图像风格特征与内容,并将其进行融合生成效果很好的艺术图. 引言部分 将一幅图像的风格迁移到另一副图像可以看作是纹理迁移的一个分支.对于纹理迁移,它的目标是从源图合成一种纹 ...

最新文章

  1. poj3683(2-SAT)
  2. 数据库时间内接受的是lang类型的时间 分为三种字段 第一种只存日期 第二种存日期+时间 第三种时间戳...
  3. matlab 交叉验证 代码,交叉验证(Cross Validation)方法思想简介
  4. mpu 配置内存空间_mpu内存保护单元功能及工作原理
  5. 从零开始学习Hadoop--第2章 第一个MapReduce程序
  6. php 缩略图 失真,WORDPRESS缩略图失真变形模糊的解决方法
  7. php分享十三:mysql事物
  8. Linux初学者需了解的知识
  9. [转]coolfire黑客入门教程系列之(六)
  10. Android:答题APP的设计与实现(mysql+jsp+Android)
  11. 现场总线与计算机网络的最大区别,现场总线与局域网的区别是什么
  12. 口模块型3500/22-01-01-00
  13. java毕业设计物业管理系统源码+lw文档+mybatis+系统+mysql数据库+调试
  14. 一维到三维的推广(1D and 3D generalizations of models)
  15. JS判断一个数是否为质数(素数)
  16. restrict / __restrict / __restrict__ 关键字
  17. 网上报修 php源码,25175网上报修系统管理平台 v2.9
  18. 共建网络安全 共享网络文明 2015福建网络安全宣传日成功举办
  19. SpringBoot集成webservice
  20. 用手机微信小程序怎么打印好友发来的资料及文件

热门文章

  1. 蓝牙耳机性能测试软件,操作方便吗 蓝牙耳机横评之功能测试篇
  2. 国内外大数据经典案例研究
  3. [Matlab科学计算] 粒子群优化算法原理和简单应用
  4. 迅雷极速版禁止自动升级的方法
  5. Rational Rose如何删除线段
  6. 苹果6s强制删除id锁_苹果解锁软件 屏幕解锁及AppleID解锁
  7. 通讯录_你有多久没翻过通讯录了?
  8. NiceScroll接管iview table高度自适应变化
  9. 终极算法【3】——符号学派
  10. 网易云音乐android变臃肿,网易云音乐版权少,为什么用户还能突破8亿??