CVPR 2022 | 北大腾讯开源:文字Logo生成模型!脑洞大开堪比设计师
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
转载自:机器之心
下图的每对 logo 中,一个是设计师设计的 logo,另一个是 AI 模型生成的,顺序不确定,你能分辨出哪些是 AI 模型生成的吗?(答案在文末揭晓)
文字标志(text logo)的设计非常依赖于设计师的创意和经验,其中,如何安排每个文字元素的布局是一个核心问题。布局设计需要考虑到很多因素,如字形、文字语义、主题等。例如,不同的文字之间通常不能有形状重叠;对于要强调语义的文字,通常使用较大的尺寸;斜切和旋转等几何变换可以分别体现力量感和欢乐感等主题。业内现有的方案大多是设计一套易于执行的规则,按照一些预先设定好的模板来设计布局,但是生成的结果往往会比较单调且缺乏创意和美感。
最近,北京大学王选计算机所和腾讯针对这个问题,提出了一种内容感知的文字标志图像生成模型,从大量现有的文字 logo 中隐式地学习布局设计规则,从而能够对任意输入的字形生成新的 logo。
该工作已经被 CVPR2022 接收,相关数据集和代码已经开源。
论文: https://arxiv.org/abs/2204.02701
数据集和代码: https://github.com/yizhiwang96/TextLogoLayout
一、数据集
训练 AI 模型通常需要大量的数据,然而业内尚不存在针对该任务的数据集。为了解决该问题,本文提出了 TextLogo3K 数据集,借助腾讯视频平台,收集、标注了 3,470 张精心挑选的文字 logo 图,这些 logo 来源于电影、电视剧和动漫的封面图。该数据集对字形进行了像素级别的精准标注,也标注了字形包围框、字符类别。
图 1 TextLogo3K 中 Logo 图像的标注
同时,它们在原海报图片中的位置和分割信息也一并提供:
图 2 TextLogo3K 中海报图像的标注
该数据集免费提供给用户做学术研究使用(禁止任何商业用途)。除了文字 logo 生成,该数据集同样可以应用于文本检测和识别、艺术字体生成、纹理特效迁移、场景文字编辑等任务。
二、模型设计
2.1 流程框图
本模型的流程框图如下图所示:
图 3 本文模型流程框图
本模型基于 Conditional GAN 来生成文字 logo,创新性地使用双判别器结构(序列判别器和图像判别器),对字形的轨迹序列和整体 logo 图像分别做判别;同时借助可微分拼接(Differentiable Composition),构建位置坐标到 logo 图像的可微分渲染过程。其主要的流程包括:
首先利用输入元素的双模态的特征(即字形视觉特征和文本语义特征),将其编码成条件特征。
坐标生成器采用条件特征和一个随机噪声作为输入, 为每个字符预测位置坐标,即字形外接框的中心点坐标,宽和高。
每个字符的位置坐标形成一条轨迹序列,故采用一个序列判别器去根据条件对序列和做真假判别。注意到本任务中坐标值是连续的,保证了序列判别器可以传播梯度。
通过可微分拼接, 合并每个字形得到的 logo 图像。
引入图像判别器,作为序列判别器的补充,目的是进一步捕捉到标志图像的细节信息,保证不同的字形之间不会有较大的重叠,字形间距合理等。
网络的整体优化目标函数如下:
其中,是序列判别器损失,是图像判别器损失,是显式的字形重叠损失(详情见论文)。E 代表条件编码器,G 代表坐标生成器,和分别代码表序列判别器和图像判别器。其中,可微分拼接和双判别器的具体技术细节在后续小节进一步介绍。
2.2 可微分拼接
在获得预测的几何参数之后,需要进一步将每个字形图像按照这些几何参数拼接成一个文字 logo。更重要的是,这个拼接过程必须是可微分的,以让整个模型可以端到端地被优化。为了达成这个目的,本文设计了一个基于 STN(Spatial Transform Networks)变种的可微分拼接方法。在原始的 STN 中,仿射变换参数是使用神经网络直接直接预测。本文方法先预测得到了目标字形位置坐标,于是先建立原坐标到目标坐标的映射关系(下图左),手动解出仿射变换的参数(下图右)。通过这种方式,既可以保证目标字形的位置坐标在画布的范围之内,又可以利用 STN 的可微分采样算法。
图 4 显式求解仿射变换参数
通常来说,在文字 logo 中不同字形之间不会有重叠(有一些故意的设计除外),因此不需要考虑每个字形之间的图层关系。将每个字形变换的图像直接进行加法操作,即可得到 logo 图像,结合上述步骤,可微分拼接的整体过程都是可微分的。
图 5 根据求解参数合成 logo 图像
2.3 双判别器结构
字符的放置轨迹应该既符合人们的阅读习惯,又呈现出多样的风格。然而,这两个特性不容易被图像生成模型中常用的卷积神经网络(CNNs)所捕获到。为了解决这个问题,本文设计了一个双判别器的模块,包括一个序列判别器和一个图像判别器。序列判别器以条件特征作为初始状态,将几何参数的序列作为输入,去分析这个放置轨迹的合理性。
序列判别器并不能够捕捉到细粒度的信息(如笔画等),因为它仅仅接收几何参数作为输入。于是,本模型引入图像判别器去进一步探究 logo 图像(人工设计的或者本模型生成的)的合理性,并预测它们的真假。根据业内的常见做法,将条件特征进行堆叠再放置到的第一个卷积层之后,用作判别条件。
三、实验
3.1 布局生成结果展示
如图 6 和图 7 所示,本模型可以生成英文 logo 图,也可以生成中文 logo。
图 6 本模型在英文数据集上结果
图 7 本模型在中文数据集上结果
其中,“ours”所在列表示本模型生成结果,“GT”表示设计师设计的结果。本模型生成的布局具有丰富的多样性:如(1)根据具体字形安排布局,如 “B + 侦探” 中,将 “+” 号巧妙地安排到 “B” 右下角和 “侦” 左下角之间;(2)根据语义进行换行,如 “神探包青天” 和“春风十里不如你”。
3.2 与其他方法对比
本文与 2D 图形布局生成工作 LayoutGAN(Li et al, ICLR 2018)和 layoutNet(Zheng et al, TOG 2019)进行了对比,这两种方法没有考虑到空间布局上的序列信息,以及输入元素的自身本文语义信息,所以不能处理该任务。如图 8 所示,本模型生成了更好的结果。
图 8 与现有方法对比
3.3 布局风格分析
通过主成分分析方法(PCA),对隐空间噪声 z 进行了可视化实验,结果展示在图 9 中。结果发现,(1)垂直的布局(B2, C2, H2, E3)倾向于落在平面的左边;(2)水平的布局(A1-E1, H1, G2)倾向于落在平面的中间和上方;(3)多行的布局(A2, D2, E2, F2)倾向于落在平面的右下方;(4)不规则的布局(F1,G1)倾向落在平面的边缘。隐空间噪声 z 和输入文本的长度变量是正交的。该可视化方法可以引导设计师探索布局风格的隐空间,帮助他们挑选喜欢的风格。
图 9 隐空间噪声 z 的可视化结果
3.4 主观评价
本文开展了一项用户调查,用于收集用户对于本模型生成结果的主观评价,用户群体包括 27 个专业设计师和 52 个其他职业者。使用了 20 对测试图片(模型生成和人工设计的),让用户(1)选择哪个是 AI 生成的:下表中的 “准确率” 表示用户挑出本模型结果的概率,越低越好;(2)选择自己更倾向于哪个:下表中的 “选择率” 表示用户选择本模型结果的概率,越高越好;(3)给 AI 生成的质量打分(1-5):体现为下表中的“生成质量”,越高越好。从结果可以看出本模型取得了不错的效果,平均准确率接近 50%,平均选择率 40%。我们也观察到设计师群体更容易鉴别出 AI 结果,对质量要求也更苛刻,说明本工作还有进一步提升的空间。
表 1 主观调查结果
3.5 logo 图生成系统
受字体生成模型和纹理迁移模型的启发,本文也建立了一个全自动的文字 logo 图生成系统。该系统首先根据用户输入的文本和主题生成对应的字体,接着,将合成的字形图像和文本送到本文提出的布局生成网络中,得到字形摆放的布局,最后使用纹理迁移模型得到修饰后的 logo 图像。图 10 展示了一些合成的样例, 证明了本系统的有效性。
图 10 logo 图像生成系统
四、结论
本文提出了一种用于合成文字 logo 图的布局生成模型。该模型创新性地提出了一个双判别器的模块,用于同时评估字符的放置轨迹和渲染后文字 logo 图的细节信息。同时,本文提出一种可微分拼接的方法,构建了布局参数到文字 logo 的可微分渲染过程。本文构建了一个大规模的数据集 TextLogo3K,并实施大量实验来验证模型的有效性,该数据同样可以应用于其他任务。引言部分中每对 logo 图像,左边是 AI 生成的,右边是人工设计的,你猜对了吗?
ICCV和CVPR 2021论文和代码下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
CVPR 2022 | 北大腾讯开源:文字Logo生成模型!脑洞大开堪比设计师相关推荐
- CVPR 2022 Oral 腾讯优图厦门大学提出无需训练的ViT结构搜索算法
CVPR 2022 Oral 腾讯优图&厦门大学 提出无需训练的ViT结构搜索算法 Training-free Transformer Architecture Search 论文:http ...
- 谷歌开源3D舞蹈生成模型FACT,舞姿清奇!
文 | 御坂弟弟 出品 | OSC开源社区(ID:oschina2013) 谷歌开源了其基于 AIST++ 的 3D 舞蹈生成模型 FACT.该模型不仅可以学习音乐-运动对应关系,还可以生成以音乐为基 ...
- 超强YOLOP!CVPR 2022领域主席团队开源!全景感知多任务SOTA!
点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:Sophia知乎 https://zhuanlan.zhihu.com/p/406018656 AI博士笔记系 ...
- CVPR 2022 Oral|PoseConv3D开源: 基于人体姿态的动作识别新范式
作者丨Kenny@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/493374779 编辑丨极市平台 Paper:https://arxiv.org/abs/2104. ...
- CVPR 2022 | 基于GAN生成 艺术文字logo及布局
来源 | 机器之心 下图的每对 logo 中,一个是设计师设计的 logo,另一个是 AI 模型生成的,顺序不确定,你能分辨出哪些是 AI 模型生成的吗?(答案在文末揭晓) 文字标志(text log ...
- ECCV 2022 | 清华腾讯AI Lab提出REALY: 重新思考3D人脸重建的评估方法
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 本文分享ECCV 2022论文<REALY: Rethink ...
- CVPR 2022 | 阿里华科提出:针对场景文本检测的视觉语言模型预训练
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文简要介绍了发表于CV ...
- CNN可视化!从CVPR 2022出发,聊聊CAM是如何激活我们文章的热度!
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:极市平台 | 作者:matrix明仔 导读 本文从CVPR2022中三篇不同领域的文章中CAM的表 ...
- NeurIPS 2022 | 北大阿里提出BEVFusion:激光雷达-相机融合新框架
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:考验 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu.com ...
最新文章
- 确认过眼神(*╹▽╹*),这就是大家想要的BCH
- Python模块整理(四):线程模块threading
- ? SegmentFault Hackathon 文艺复兴上海站作品集 - 获奖篇
- 对AI的未来以及优势的一些看法
- 【Python3网络爬虫开发实战】 1.2.2-Selenium的安装
- 在Android平台上发现新的恶意程序伪装成杀毒软件挟持设备
- Numpy的使用方法
- python基于paramiko模块实现远程连接Linux虚拟机(服务器)并执行指定命令返回输出结果
- 1.供给与需求分析(交通流理论)
- java 参数命名规则_Java命名规范
- H3C设备网吧万兆光模块解决方案
- 直接让Windows注销的脚本
- 简单沟通,远离纸质繁琐!灵活简单的在线表单制作工具
- 射频:杂散和谐波的区别
- js如何将字符串转化为大写
- 拥抱 Android Studio 之四:Maven 仓库使用与私有仓库搭建
- MySQL的下载与安装(超详细)
- tkinter实现带背景图片的登录窗口
- 【计算机毕业设计】医院预约挂号系统
- Ogre SourceCode Compile by Windows VS2005
热门文章
- 女人最大的财富是什么
- iview的Tree组件设置Tooltip鼠标悬浮文字
- ps一些比较有用的要点
- 2018年出生率 京沪津普降 东北垫底
- 支付宝小程序my.navigateTo或my.switchTab带参数跳转介绍
- 上海豫园新春民俗艺术灯会亮灯 “财神猪”受热捧
- 求合肥、杭州两地ue4美术大牛
- 王者服务器维护杨戬,王者荣耀杨戬加强 王者荣耀2021年3月19日体验服英雄调整内容...
- 我的2020工作与学习总结
- 长虹电视机android 4.0,长虹3013智能电视A7000 B5000 安卓4.0升级包