CLIP Passo：Semantically-Aware Object Sketching图像生成简笔画

保持语义信息的物体素描：图片变成简笔画的形式，可生成各种层次的主要轮廓并且保留其主要视觉特征。不仅要把原来的物体变成一个非常简单的形象，也要保证观众能不能看出这到底是个什么物体，这就需要模型抓住原来物体最关键的一些特征。

相关工作：之前的研究都是去收集好的、抽象层次固定的数据集，这属于一种data driven的方式，这种方式生成的素描画风格和形式就收到了限制。这就违背了图像生成的初衷（不同层次）。另一方面，使用固定的数据集还有一个劣势，就是种类不能很丰富，现有的素描数据集种类非常有限。

那么如何摆脱对于有监督数据集的依赖呢？如何寻找一个图像的语义信息抽取的特别好的模型呢？答案就是CLIP！由于图像语义配对的学习方式，对物体的语义信息抓取的特别好，而且又有出色的zero-shot能力。CLIP不受图像风格的限制，始终都能把图像特征编码的非常好。

能通过控制笔画的多少，生成不同层次的简笔画。

主体部分：任务就是在白纸上随机生成Bezier曲线，然后通过不停的训练，这些曲线就组合成了简笔画。

贝兹（Bezier）曲线就是空间中一系列点控制的曲线（学过CAD的朋友应该了解），在二维空间中的点（x，y），每条线由四点个（p1~p4）控制。通过模型的训练更改四个点的位置来控制Bezier曲线，最后生成简笔画。

随机生成了笔画为n的Bezier曲线，然后通过Rsaterizer（光栅化器）将笔画映射到二维画布上。文章的贡献有两点，前边是如何选择更好的初始化，后边是选择了一个更合适的损失函数。

得到了初步的简笔画，把CLIP模型作为teacher网络，生成伪标签（Ground True），然后用来蒸馏自己的模型。这里借助了CLIP模型的稳健性，如果说初步的简笔画和CLIP输入的原始图像都是一个物体（如上图中都是马），那么经过CLIP后应该都是对马这个物体的描述，两者因尽可能接近。因此就可以将CLIP的image embedding作为伪标签也就是ground true计算损失函数。

作者在原文中也说得很清楚，直接使用一个预训好的CLIP的图像编码器，不需要进一步训练就可以提取自然图像和简笔画。另外，预训好的CLIP的图像编码器由于通过图像文本匹配的方法训练好了，就可以提取出高级的语义信息。损失就是通过余弦相似度计算，生成简笔画与原始图像经过CLIP图像编码后越相似，损失越小。

除了高级的语义描述要尽可能一致外，低层次的空间信息（动作或位置、结构）也应该相似。为了测量这种几何上的相似性，使用L2损失。这里是把模型的前几层拿出来算目标函数，比如Res50，将Res-Layer2、Res-Layer3、Res-Layer4这些层的特征拿出来算目标函数。因为前边层的特征有长宽的概念，对位置（几何）比较敏感。用这些特征去算loss，就能保证几何形状，物体的朝向的一致性。最终的目标函数就是将两者相加，两者结合保证了物体语义上、几何上的一致性。

再一个就是贝兹（Bezier）曲线初始化，最开始的点放在哪很有讲究。就需要一个比较稳定的初始化方式，才能让模型更普适。作者提出基于saliency的初始化方式，具体来说就是用一个训练好的ViT，把最后一个多头自注意力取加权平均做成saliency MAP，就在这些映射上去看哪些特征更显著，然后在显著的区域上去采点。你在显著性的区域上采点，就是你已经知道了一个物体，或者说你已经沿着这个物体的边界去画贝兹曲线了。因此，你初始化的简笔画以及很不错了，与你最后的简笔画相差不多了。

模型一共训练2000次迭代，但在100次迭代时就差不多收敛了，轮廓已经比较明显。这篇文章还有一个很好的点就是模型训练很快。只用一张V100的GPU就能在六分钟完成2000次迭代。

使用注意力采点的初始化后，眼睛等细致的关键特征就在简笔画中体现出来。对比Proposed图和采点图已经非常相似了，这说明一个好的初始化还是非常重要的。

后处理这边是模型每次都生成三个简笔画，然后计算三个loss，最终去最小的loss的简笔画作为最终的输出。

文章主要有以下两个买点：

1.CLIP Passo不受物体类别限制，可以为不常见的物体生成简笔画。

2.CLIP Passo可以通过控制笔画数量来达到任何程度的抽象。

与其他方法相比，CLIP Passo更具备语义信息，更能抓住物体的本质。值得一提的是，右下角CLIP Passo感觉并不如其他方法生成的好，CLIP Passo没有把眼睛生成出来，头发也有些许的草率，或许是更为抽象吧~。

局限性：

1.图像有背景的时候，CLIP Passo效果就会差一些。CLIP Passo还是比较依赖自注意力初始化的，如果一张图像很复杂，那么注意力可能就不在要描述的物体上了，初始化时注意力采点可能就会采到其他物体上，初始化就比较差，最终的效果也就不会好。也就是说抗干扰性要差一些。文中采用的方法就是automati mask，取出前景，遮住背景，然后送进CLIP Passo。这就复杂了一些，变成了two-stage 的模型，如果能提出新的loss能把带背景或噪声的图片解决的很好，那也是很有意义的。

2. CLIP Passo初始化时，笔画都是同时生成的，不像人一样是一笔一笔序列式生成的（有前后顺序，下一笔参考上一笔）。

python的学习还是要多以练习为主，想要练习python的同学，推荐可以去看，他们现在的IT题库内容很丰富，属于国内做的很好的了，而且是课程+刷题+面经+求职+讨论区分享，一站式求职学习网站，最最最重要的里面的资源全部免费。

牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推，求职就业一站解决_牛客网求职之前，先上牛客，就业找工作一站解决。互联网IT技术/产品/运营/硬件/汽车机械制造/金融/财务管理/审计/银行/市场营销/地产/快消/管培生等等专业技能学习/备考/求职神器，在线进行企业校招实习笔试面试真题模拟考试练习，全面提升求职竞争力，找到好工作，拿到好offer。https://www.nowcoder.com/link/pc_csdncpt_ssdxjg_python

他们这个python的练习题，知识点编排详细，题目安排合理，题目表述以指导的形式进行。整个题单覆盖了Python入门的全部知识点以及全部语法，通过知识点分类逐层递进，从Hello World开始到最后的实践任务，都会非常详细地指导你应该使用什么函数，应该怎么输入输出。

牛客网（牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推，求职就业一站解决_牛客网）还提供题解专区和讨论区会有大神提供题解思路，对新手玩家及其友好，有不清楚的语法，不理解的地方，看看别人的思路，别人的代码，也许就能豁然开朗。

快点击下方链接学起来吧！

牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推，求职就业一站解决_牛客网

参考：

参考：CLIP 改进工作串讲（下）【论文精读】_哔哩哔哩_bilibili

论文下载：https://arxiv.org/abs/2202.05822v2

CLIP Passo：Semantically-Aware Object Sketching图像生成简笔画相关推荐

零样本风格迁移：多模态CLIP文本驱动图像生成
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达来源:GitHub ,新智元 [导读]零样本的风格迁移听说过没有?英 ...
字节跳动CVPR 2023论文精选来啦（内含一批图像生成新研究）
计算机视觉领域三大顶会之一的 CVPR 今年已经开奖啦. 今年的 CVPR 将于六月在加拿大温哥华举办,和往年一样,字节跳动技术团队的同学们收获了不少中选论文,覆盖文本生成图像.语义分割.目标检测.自 ...
ICCV2021｜底层视觉(图像生成，图像编辑，超分辨率等)相关论文汇总（附论文链接/代码）[持续更新]
ICCV2021|底层视觉和图像生成相关论文汇总(如果觉得有帮助,欢迎点赞和收藏) 1.图像生成(Image Generation) Multiple Heads are Better than On ...
ICCV 2019 | 从多视角RGB图像生成三维网格模型Pixel2Mesh++
本文发表于 ICCV 2019,由复旦大学.Google 公司和 NURO 公司合作完成.文章提出了从几张已知相机位置的多视角彩色图片生成三角网格模型(3D Mesh)的网络结构. Github 链接 ...
ICCV 2019 | COCO-GAN：通过条件坐标的部分图像生成
作者丨文永明学校丨中山大学硕士生研究方向丨Object Manipulation.机器人视觉.GAN 引言这是一篇发表在 ICCV 2019 的 Oral 论文,是国立清华大学.国立台湾大学以及 ...
图像生成对抗生成网络gan_GAN生成汽车图像
图像生成对抗生成网络gan Hello there! This is my story of making a GAN that would generate images of cars, with ...
CVPR 2020 Oral | 妙笔生花新境界，语义级别多模态图像生成
GAN已经成为图像生成的有力工具,现今GAN已经不再局限于生成以假乱真的图,而是向着更加灵活可操控的方向发展. 今天向大家介绍的CVPR 2020 的文章出自华中科技大学白翔老师组,特别要提醒,文中有 ...
昇腾CANN论文上榜CVPR，全景图像生成算法交互性再增强
本文分享自华为云社区<昇腾CANN论文上榜CVPR,全景图像生成算法交互性再增强!>,作者:昇腾CANN . 近日,CVPR 2022放榜,基于CANN的AI论文<Interacti ...
Pixel2Mesh从单个RGB图像生成三维网格ECCV2018
目录摘要 1.Introduction 2.Related Work 3.Method 3.1.准备工作:基于图的卷积 3.2.系统概述 3.3.初始椭球 3.4.Mesh deformation ...

CLIP Passo：Semantically-Aware Object Sketching图像生成简笔画

CLIP Passo：Semantically-Aware Object Sketching图像生成简笔画相关推荐

最新文章

热门文章