CVPR 2022 | 百变发型!中科大/微软/港城大提出HairCLIP:基于文本和参考图像的头发编辑方法...
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
图1 本方法单独地或联立地支持来自图像和文本域的条件输入以完成头发编辑
本文介绍我们在CVPR 2022关于基于文本和参考图像完成头发编辑的工作。该工作将文本和参考图像条件统一在了一个框架内,在单个模型内支持广泛的图像和文本作为输入条件从而完成相应的头发编辑任务。代码正在逐步开源,欢迎大家试用。
论文标题: HairCLIP: Design Your Hair by Text and Reference Image
作者单位: 中国科学技术大学,微软云AI,香港城市大学
录用信息: CVPR 2022
代码: https://github.com/wty-ustc/HairCLIP
论文: https://arxiv.org/abs/2112.05142
一、针对问题
1. 当前头发编辑交互方式不够友好
头发作为人脸至关重要的组成部分,一直以来得到了学术界与工业界的广泛关注。近年来,随着深度学习的发展,许多基于条件生成对抗网络(GAN)的头发编辑方法可以产生不错的编辑效果。但是,这些方法大多使用精心绘制的草图或遮罩作为图像到图像翻译网络的输入从而得到编辑后的结果。然而这种交互方式并不直接也不够友好。因此,这样的交互方式极大地限制了这些方法的大规模自动化使用。
2. StyleCLIP为文本驱动的图像编辑提供了前车之鉴,但其存在诸多不适于高强度“做头发”的缺点
得益于跨模态视觉和语言表征的发展,基于文本指导的图像篡改方法已经开始不断出现。最近,StyleCLIP通过结合StyleGAN强大的图像合成能力和CLIP惊人的图像文本表征能力展现了很好的图像篡改效果。尽管StyleCLIP内在地支持基于文本描述的头发编辑,但是它存在如下缺点:
对于每个特定的头发编辑描述,它都需要分别训练一个映射器,这种方式在实际应用中是非常不灵活的;
由于缺少定制的网络结构和训练损失函数设计使得该方法对于发型、发色和其他无关属性的解耦性比较差;
在实际应用中,一些发型发色是很难用文本描述的。这时,用户更倾向于使用参考图像,但是StyleCLIP不支持基于参考图像的头发编辑。
二、方法框架
本文利用在大规模人脸数据集上预训练的StyleGAN作为我们的生成器,整个头发编辑框架如图2所示。给定待编辑的真实图像,我们首先使用StyleGAN inversion方法得到其隐编码,然后我们的头发映射器根据隐编码和条件输入(发型条件、发色条件)预测隐编码相应的变化,最后修改后的隐编码将被送入StyleGAN产生对应的头发编辑后的图像。因此,最核心的问题就是学习一个映射器网络来将输入的条件解耦地映射到隐编码的相应变化。我们从网络结构、损失函数两个方面来解决这个问题。
图2 本文提出的跨模态头发编辑框架的概述图
1. 网络结构
共享的条件嵌入。为了将文本和图像条件统一在同一个域内,本文利用CLIP的文本编码器和图像编码器来分别提取它们各自的嵌入,用以作为本文映射器网络的条件输入。因为CLIP是在大规模图像-文本对上训练过的,所以不管是文本嵌入还是参考图像嵌入都在同一个共享的隐空间中,因此它们可以被不加区分地送入映射器网络并且任意切换。
解耦的信息注射。因为StyleGAN存在语义分层现象,即StyleGAN中不同的层对应的语义级别不同。我们注意到了这点,在头发映射器内细分了三个子头发映射器,对应预测高、中、低语义级别的隐编码变化。同时,我们显式地分离了发型信息和发色信息,并根据它们在StyleGAN中对应的语义级别将它们分别喂入不同的子头发映射器中,这种做法提升了网络对于发型、发色编辑的解耦能力。
调制模块。本文设计了一个条件调制模块来完成输入条件对隐编码的直接控制。整个调制模块结构(见图2)非常简单,设计思想借鉴于一些经典的条件图像翻译工作,这种做法提高了本文的头发篡改能力。
2. 损失函数
文本篡改损失,用于约束编辑后的结果与给定文本描述之间的相似性。不管是发型还是发色我们都是在CLIP的隐空间中度量文本与编辑后结果的余弦相似度。这也是目前CLIP被使用最多的方式,平平无奇。
图像篡改损失,用于指导从参考图像到目标图像的发型或发色转移。对于发型转移,我们面临一个挑战:如何比较好的度量发型之间的相似度?这儿, 我们再次发挥了CLIP的强大本领,将编辑后的图像与参考图像的头发区域均经过CLIP的图像编码器嵌入到CLIP的隐空间中进而度量它们间的余弦相似性。得益于我们提出的该训练损失,我们的方法对待编辑图像与参考图像存在严重不对齐的情况,也可产生合理的编辑结果。对于发色转移,我们度量编辑后的图像与参考图像头发区域的平均颜色差异。
属性保持损失,用于保持无关属性(如:身份、背景等)在编辑前后不变。
三、实验结果
与相关工作的定性对比见图3、图4。我们的方法高质量地完成了相应的头发编辑任务。
图3 与StyleCLIP、TediGAN就基于文本描述的头发篡改的定性对比
图4 与LOHO、MichiGAN就基于参考图像的头发篡改的定性对比
四、应用展示
1. 头发内插
在获得两个完成头发编辑的隐编码后,我们可以通过将两个隐编码进行线性加权的方式完成细粒度的头发编辑。
图5 头发内插结果展示
2. 泛化能力
得益于我们提出的共享条件嵌入策略,我们的网络在有限的文本训练后拥有了一定的外推能力,它可以对训练过程中未出现过的一些文本产生合理的编辑结果。
图6 对未见过的文本描述的泛化性
3. 支持跨模态的条件输入
我们的模型支持来自图像域和参考图像域的条件以单独地或联合地形式作为网络的输入,这是目前其他头发编辑方法无法做到的。
图7 跨模态条件输入结果展示
五、总结
本工作第一次证明了CLIP在头发编辑领域的巨大潜力:不是单一地利用CLIP衡量图像文本相似度,本工作利用CLIP的强大的共享隐空间完成了对图像域和文本域的统一与协作促进,探索了CLIP的图像编码器对难以表征的事物提供一种相似性度量的手段。虽然本工作聚焦于头发编辑,但希望它可以对其他相关领域给予一些启发与思考。
ICCV和CVPR 2021论文和代码下载后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲长按加小助手微信,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号整理不易,请点赞和在看
CVPR 2022 | 百变发型!中科大/微软/港城大提出HairCLIP:基于文本和参考图像的头发编辑方法...相关推荐
- 【深度学习】CVPR 2022 | 百变发型!中科大/微软/港城大提出HairCLIP:基于文本和参考图像的头发编辑方法...
图1 本方法单独地或联立地支持来自图像和文本域的条件输入以完成头发编辑 本文介绍我们在CVPR 2022关于基于文本和参考图像完成头发编辑的工作.该工作将文本和参考图像条件统一在了一个框架内,在单个模 ...
- 2022物联网工程保研经历分享(中科院计算所、中科院软件所、中科大、南大、华中科技大学、北航、哈工大、中山大学等)
2022物联网工程保研经历分享(中科院计算所.中科院软件所.中科大.南大.华中科技大学.北航.哈工大.中山大学等) 背景 学校:安徽某普通工科211.专业:物联网工程.rank:夏令营:1/101,预 ...
- CVPR 2022大会主席、港科大教授权龙:计算机视觉的现状与未来
来源:AI科技评论 本文约5200字,建议10+分钟. 权龙教授发表了题为<三维视觉重新定义人工智能安防>的演讲. 近日,由雷锋网主办的第二届中国人工智能安防峰会在杭州召开. 峰会现场,香 ...
- CVPR 2021 | 中科大联合快手,提出人脸伪造检测新方法
视学算法发布 机器之心编辑部 来自中科大.快手的研究者针对人脸伪造,提出了基于单中心损失监督的频率感知鉴别特征学习框架,将度量学习和自适应频率特征学习应用于人脸伪造检测,实现SOTA性能. 一:背景和 ...
- CVPR 2022 | 提高小数据集利用效率,复旦等提出分层级联ViT网络
©作者 | 戈维峰 单位 | 复旦大学 来源 | 机器之心 来自复旦大学.上海市智能信息处理重点实验室和香港大学的研究者提出了一种基于 DINO 知识蒸馏架构的分层级联 Transformer (HC ...
- CVPR 2022 ActivityNet竞赛冠军:中科院深圳先进院提出高低分双模态行为识别框架...
来源:新智元 本文约2400字,建议阅读10+分钟本文为CVPR 2022 ActivityNet竞赛冠军的方案详解,该方案主要解决真实监控场景下的低分辨率行为识别. 前言 安防监控是智慧城市的重要组 ...
- 中科大/中科院/南大/西交 保研经验
转载于CSDN,原文作者为:cuixuange 点击原文链接,可进入原帖. 准备保研的时候看了一些别人的成功保研经历,我一直想这自己是否会有这么一个机会写写自己的经历呢?笔拙+没有底气=迟迟未动笔,后 ...
- ACL 2022 | 字节跳动与新加坡科技与设计大学提出:基于演绎推理的数学解题
©作者 | 字节跳动AI Lab.UT Austin等 来源 | 机器之心 目前强大的语言模型普遍在很多下游 NLP 任务中能轻易地达到比较好的结果,但在推理效果上没有达到我们的预期 [1].字节跳动 ...
- CVPR 2021 | 天津大学提出PISE:形状与纹理解耦的人体图像生成与编辑方法
©PaperWeekly 原创 · 作者|张劲松 学校|天津大学硕士生 研究方向|计算机视觉 导读:由单张人体图像来生成任意视角任意姿态下的图像,是近几年视觉领域研究的热点问题.现有方法无法实现灵活的 ...
最新文章
- 基于机器学习的临床决策支持-ANN
- linux 下的图片处理软件下载,美图秀秀Linux版
- Servlet Cookie处理
- python pandas read_csv 迭代器使用方法_pandas.read_csv参数详解(小结)
- matlab cell向量匹配向量,根据2个cell格式数据中的某二列进行匹配并合并
- heartbeat v2+ldirectord+LVS集群
- 达摩院自研数学规划求解器发布,最新技术将通过阿里云对外输出
- String.valueOf()方法的使用总结
- delphi 的GetTickCount计时用法缺陷及管制
- 如何利用445端口进行入侵渗透 445端口入侵原因详细解析。大家在进行入侵渗透个人电脑的时候,经常会碰到各种各样的端口,比如135,1433,445,3306等端口,现在小编就给大家讲解下445端口如
- 【经典算法实现 16】阿克曼函数(非递归实现 代码优化)
- Win10台式机前面板耳机无声音,没有Realtek高清晰音频管理器,前置耳机孔无法使用
- kubuntu 20.04 终端输入中文时乱码
- CentOS 安装 无线USB网卡 RTL8192EU
- 怎么转换视频格式,视频格式不符如何转换?
- 计算二维紧束缚模型费米面和nesting程序新思路
- 测试电脑的软件3dm,有用的小工具检测你的电脑能否运行Oculus Rift
- Oracle varchar2 4000
- python中iloc与loc的区别
- 客户流失的原因 防止客户流失的6种方法
热门文章
- python计算学分绩点的程序_模拟登录教务系统计算GPA的小程序
- 大白话搞懂什么是同步/异步/阻塞/非阻塞
- Chrome 扩展是什么?我们如何建造它?
- Chrome将已有的插件,打包成crx供其他电脑使用
- 蚂蚱跳跃问题 【字节笔试】题目说 ”字节“跳动
- jsp:include和%@include file=%有什么区别
- 微芯科技35.6亿美元购Atmel 芯片业整合潮继续
- 降噪耳机买什么牌子好?口碑质量好的降噪耳机推荐
- 快速选取单元格的10种方法。
- 第二章 GD MCU程序下载