本文分享阿里妈妈创意&视频平台团队在图文广告创意方向上关于元素自动布局的探索与实践,在多个核心广告场景中应用并取得线上收益,具体应用可参考往期文章 《实现"模板自由"?阿里妈妈全自动无模板图文创意生成》。基于该项工作总结的论文已被 IJCAI 2022 AI & Arts Track录用,欢迎阅读交流~

论文:Composition-aware Graphic Layout GAN for Visual-textual Presentation Designs

下载:https://arxiv.org/abs/2205.00303

▐ 背景

在广告投放过程中,需根据不同的商品制作创意以吸引用户。从历史实验上看,点击效果与创意视觉美观度呈正相关关系。目前,业界广泛应用的自动化创意制作方法,都是基于固定模板(布局)的元素替换或属性更改,即如下图所示,logo、文字、衬底、装饰元素等图形元素的位置不随商品图像变化而更改,常出现遮挡图像主体、视觉融合度不佳等问题,且千篇一律,容易产生视觉疲劳。在学术研究上,有一些自动生成布局的方法,但这些方法主要关注于布局的图形元素内部间的关系建模,未充分利用图像内容信息,无法解决上述问题。

因此,为解决这一业务痛点,我们提出了一种感知图像内容的创意布局自动生成方法,并基于该方法,可为商品图定制化地生成合理布局(如下图所示),保证商品主体的有效展示,提升创意美观度。

不同创意示意图

▐ 相关工作

在学术研究上,自动布局生成(Automatic Layout Generation)是一个被广泛关注的经典问题。早期的方法主要依赖于模板或者启发式方法,往往需要一定的专业知识,且经常受限于手工规则而无法实现灵活、多样化的布局。

随着深度学习的发展,LayoutGAN [1]、LayoutVAE [2]、VTN [3] 可通过数据驱动的方式自动生成布局,同时涌现了一些条件布局生成方法(如指定元素数量或类别、元素相对位置关系等)。但以上这些方法都仅仅专注于学习图形元素间的内部关系,没有考虑图像内容对布局的影响。

ContentGAN [4] 是第一个使用图像的视觉语义信息来生成布局的方法,它可以产出高质量的杂志页面布局。但在对图像内容的处理上,它仅使用了由预训练网络提取出的一维向量,缺乏空间信息和细节特征,在广告创意布局上仍无法避免主体被遮挡等问题。由此,我们提出了一种能更好地感知图像具体内容与位置的布局生成方法,能产出与图像适配度更强的高质量创意布局。

▐ 方法设计

首先,布局可定义为不定长的图形元素集合 ,每个元素包括其类别和位置信息。如上图所示,我们将元素类别设定为logo、文字、衬底、装饰元素这四类,位置信息则由每个元素的中心坐标和宽高表示。

在根据图像内容生成创意布局的过程中,需解决两个核心问题:1)图像和人工创意布局的成对数据获取;2)如何在生成布局过程中充分利用图像内容信息。

对于问题1),最直接的方式是由设计师根据无文字等元素的干净商品图像设计布局,得到相应数据,但这样成本很高,且数据易因设计师少而陷入固有模式。因此我们创新地提出了一个域对齐(Domain Alignment Module, DAM)模块,只需获取广告主创意图,并类似于图像检测任务标出其上的元素类别和位置,测试时可直接使用干净的商品图像进行预测。基于此,我们也制作了首个针对广告创意布局的大型数据集,包含约6w张人工标注好布局信息的创意图像(训练集),和1k张干净的商品图像(测试集)。

对于问题2),我们则将Multi-scale CNN和Transformer相结合,提出了一个图像内容感知的布局生成GAN网络。该网络充分利用两者的优点,不仅可以有效学习地学习元素间的对齐、交叠等关系,而且还能建模元素与图像内容位置、背景颜色纹理分布间的关系。此外,该网络还支持添加用户约束,可对用户布局进行合理补全,满足实际应用中部分场景有固定设计规则的需求。

整体流程如下图所示,具体的步骤和模块如下:

整体流程和模型结构图

1)域对齐模块

该模块由两个预先训练好的子网络构成:inpainting网络(LAMA[5])InpNet、显著性检测网络[6] SalNet。训练时,对于每张创意图,由标注得到的ps元素布局信息制作mask ,InpNet根据该mask和创意图生成修复后图像,再通过SalNet得到其主体区域,将修复后图像与显著性检测结果concat后作为该模块的输出。测试时,对于干净商品图,则直接将其与对应显著性结果concat得到输出。显然,相比于直接使用创意图和干净商品图,经过inpainting和显著性处理后的和间域差异更小。

2)基于内容感知的布局生成

为了更好地建模图像和布局元素之间的关系,布局生成器由三部分组成:提取图像特征的Multi-scale CNN 主干网络、隐式学习布局生成规则的Transformer,以及用于转换输出为分类和位置回归的全连接层。

图像数据从域对齐模块输出后,被送入 CNN中提取图像特征。由于影响布局的图像内容不仅意味着主体位置之类的高级语义,还包括区域复杂度等低级特征,因此我们在最后两个卷积块上加入了多尺度策略。多尺度特征通过一个线性层转化为Transformer 编码器的输入,并通过编码器进一步细化图像特征。解码器则采用初始布局(噪声或约束)作为输入,并利用交叉注意力机制来学习图像与布局之间的关系。此外,图形元素之间的内部关系则是通过解码器中的自注意力机制建立的。

最后,将每个元素的解码器特征送入全连接层中,分别预测对应的类和坐标。将各元素结果综合,则得到预测的一个完整布局。

3) 损失函数与模型优化

总损失函数分为重建与对抗损失两部分。对于重建损失,则是和DETR [7]一样,用预测布局与真实布局间通过交叉熵等计算分类、回归损失。对于对抗损失,则是构建了一个与生成器相似的判别器。且在应用判别器时,为了消除真实布局和预测布局之间的数值差异,对预测布局应用可微分的argmax,并将预测的非对象的框坐标重置为0。

▐ 指标设计与实验效果

为了更全面地评估方法效果,除了使用布局质量评估常用的重叠、对齐等与图像内容无关的指标外,我们还使用了人工测评指标,并根据设计原则创新地提出了三项和图像内容相关的布局评价指标。由下表可见(三大类指标从左至右分别为:人工测评、与图像相关的评价指标、与图像内容无关关注元素关系的指标),与SOTA方法相比,我们的方法在各项指标上均表现良好,特别是人工测评、内容相关的指标上远超其他方法。

与SOTA方法的定量对比

与SOTA方法在不同输入图像上的可视化对比效果如下:

与SOTA方法的定性对比

为验证创意布局和图像内容间的相关性,我们还对图像进行了随机裁剪/缩放,结果如下图所示,网络能相应地产生不同的布局。

图像裁剪/缩放后的创意布局变化

此外,当使用随机选择的部分布局进行训练时,从下图可见,模型可根据输入的布局情况进行合理完整布局输出,方便添加用户输入约束。

用户约束下的布局生成(用户约束布局如第一行所示)

▐ 关于我们

我们是阿里妈妈创意&视频平台,专注于图片、视频、文案等各种形式创意的智能制作与投放,以及短视频广告多渠道投放,产品覆盖阿里妈妈内外多条业务线,欢迎各业务方关注与业务合作。同时,真诚欢迎具备CV、NLP和推荐系统相关背景同学加入!

投递简历邮箱:alimama_chuangyi@service.alibaba.com

Reference

[1] Jianan Li, Jimei Yang, Aaron Hertzmann, Jianming Zhang, and Tingfa Xu. Layoutgan: Generating graphic layouts with wireframe discriminators. In 7th International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. OpenReview.net, 2019.901.06767, 2019.

[2] Akash Abdu Jyothi, Thibaut Durand, Jiawei He, Leonid Sigal, and Greg Mori. Layoutvae: Stochastic scene layout generation from a label set. pages 9894–9903. ICCV, 2019.

[3] Diego Mart ́ın Arroyo, Janis Postels, and Federico Tombari. Variational transformer networks for layout generation. In CVPR, pages 13642–13652, 2021.

[4] Xinru Zheng, Xiaotian Qiao, Ying Cao, and Rynson W. H. Lau. Content-aware generative modeling of graphic design layouts. ACM Trans. Graph., 38(4):133:1–133:15, 2019.

[5] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, NaejinKong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. In IEEE/CVF Winter Conference on Applications of Computer Vision, WACV 2022, Waikoloa, HI, USA, January 3-8, 2022, pages 3172–3182. IEEE, 2022.

[6] Bo Wang, Quan Chen, Min Zhou, Zhiqiang Zhang, Xiaogang Jin, and Kun Gai. Progressive feature polishing network for salient object detection. AAAI2020: 12128-12135.

[7] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In ECCV, pages 213–229, 2020.

END

也许你还想看

实现"模板自由"?阿里妈妈全自动无模板图文创意生成

ACM MM'22 & ECCV'22 | 6篇论文带你了解广告创意的“黑科技”

CVPR'22 | 基于像素差异学习的视频高光检测算法及在视频广告中的应用

CVPR'22 | 基于可形变关键点模型的图像驱动技术

告别拼接模板 —— 阿里妈妈动态描述广告创意

如何快速选对创意 —— 阿里妈妈广告创意优选

喜欢要“分享”,好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓

ACM MM'22 & ECCV'22 | 6篇论文带你了解广告创意的“黑科技”

IJCAI'22 | 感知图像内容的创意布局自动生成方法相关推荐

  1. 结构感知图像修复:ICCV2019论文解析

    结构感知图像修复:ICCV2019论文解析 StructureFlow: Image Inpainting via Structure-aware Appearance Flow 论文链接: http ...

  2. 前端基础知识概述 -- 移动端开发的屏幕、图像、字体与布局的兼容适配

    本文是内部的一次分享沉淀,偏向基础但是涉及了一些有意思的细节,文笔有限,才疏学浅,文中若有不正之处,万望告知. 前端的一大工作内容就是去兼容页面在不同内核的浏览器,不同的设备,不同的分辨率下的行为,使 ...

  3. 合合信息亮相CCIG2023:多位大咖共话智能文档未来,文档图像内容安全还面临哪些技术难题?

    近日,中国图象图形大会(CCIG 2023)(简称"大会")在苏州圆满落幕.本届大会以"图象图形·向未来"为主题,由中国科学技术协会指导,中国图象图形学学会主办 ...

  4. 每日新闻:IBM软件与服务器销售不及预期;百度成为AI首个中国会员;清华发布让盲人能够感知图像科技;科大讯飞连遭质疑...

    关注中国软件网 最新鲜的企业级干货聚集地 今日热点 软件与服务器销售不及预期 IBM增长势头放缓 IBM周三公布第三季度财报,营收不如预期,主因为大型服务器和软件需求放缓.截至9月30日止的第三季度, ...

  5. 移动端开发的屏幕、图像、字体与布局的兼容适配

    本文是内部的一次分享沉淀,偏向基础但是涉及了一些有意思的细节,文笔有限,才疏学浅,文中若有不正之处,万望告知. 前端的一大工作内容就是去兼容页面在不同内核的浏览器,不同的设备,不同的分辨率下的行为,使 ...

  6. 【适配】521- 移动端开发各种兼容适配问题(屏幕、图像、字体与布局等)

    来源 | https://www.cnblogs.com/coco1s/p/11463599.html 本文是内部的一次分享沉淀,偏向基础但是涉及了一些有意思的细节,文笔有限,才疏学浅,文中若有不正之 ...

  7. 笑傲江湖ol更新服务器正在维护,笑傲江湖ol4月22日更新内容 调整死亡复活设置...

    笑傲江湖ol4月22日更新内容介绍: <笑傲江湖OL>为给大家带来更好的游戏体验,将于明日8点开启为期2小时的例行维护. 维护时间:2016年4月22日 8:00-10:00 维护服务器: ...

  8. 计算机视觉编程——图像内容分类

    文章目录 图像内容分类 1 K近邻分类法(KNN) 1.1 一个简单的二维示例 1.2 用稠密SIFT作为图像特征 1.3 图像分类:手势识别 2 贝叶斯分类器 3 支持向量机 图像内容分类 1 K近 ...

  9. 招商局集团内部控制手册pdf_企业内部控制流程手册,全文22模块,内容很全面,可直接打印使用...

    企业内部控制流程手册,全文共22模块,内容很全面,可直接打印使用 目录 第1章 企业内部控制流程-资金 6 第2章 企业内部控制流程-采购 14 第3章 企业内部控制流程--存货 22 第4章 企业内 ...

  10. OpenCV实现基于图像内容检索--视频播放(上)

    最近要交个小作业,恰好刚开了博客园的博客,就想着把这个记下来当是做点笔记)=.=(,做的小作业的题目是基于图像内容的内容检索,先从基础的一步一步来,这部分主要是讲包括OpenCV和使用ActiveX控 ...

最新文章

  1. IT编辑推荐:广通Broadview IT运维管理平台
  2. 几种常用通信协议:IIC协议、SPI协议、UART协议
  3. JSON在JS和JAVA的处理
  4. linux终止yum进程,【Linux】CentOS7中yumbackend.py进程的结束方法
  5. POE供电交换机应用方案及功能特性介绍
  6. 阿里巴巴指东打西,PC之后卖盒饭?
  7. Bootstrap简介
  8. PHP文字转语音合成网源码 百度API开发
  9. Python 学习笔记9(装饰器,decorator)
  10. 苹果:iPhone 12定价很合适,首批预订秒光说明用户认可
  11. linux内核驱动之 驱动程序的角色
  12. python画动态图-python画动态图
  13. 【揭秘】一个小团队真正能落地的微服务架构实践
  14. 解决“无法删除文件:无法读源文件或磁盘”
  15. Android Builder模式
  16. 银行储蓄系统软件结构图
  17. HTML引用高德英文地图
  18. 外地人在成都买房被限购怎么办?看完就知道
  19. Linux之core dumped出错原因及位置分析
  20. 影视剪辑,自学剪辑,视频剪辑7天学习计划

热门文章

  1. OSChina 周三乱弹 —— 别人介绍了个妹纸 现在……
  2. java.lang.IllegalStateException: focus search returned a view that wasn‘t able to take focus!
  3. 混合现实:地面高度不准确
  4. 【HoloLens】启用Mixed Reality Portal混合现实门户
  5. 程序猿给娃取名的正确姿势
  6. mysql中getdate怎么用_SQL中 getdate() 用法
  7. 彻底理解差模共模 输入信号
  8. android 长按复制,【转】TextView长按复制实现方法小结
  9. 【机器学习】【决策树】C4.5算法,详解+python代码实现
  10. 论文那些事—Admix: Enhancing the Transferability of Adversarial Attacks