点击我爱计算机视觉标星,更快获取CVML新技术


本文简要介绍 ACM Multimedia 2019录用论文“EditingText in the Wild”的主要工作。该论文主要针对自然场景图片文字编辑问题,提出了一种风格保持网络,可以做到在保留场景文字风格的情况下替换文字内容,替换后的文字与背景无缝融合,在视觉上达到了十分逼真的效果。

图1 本文方法效果图

一、研究背景

自然场景文字编辑相对来说是一个较新的研究方向,但在生活中应用较为广泛,例如广告图片编辑,文字纠错,AR翻译等场景,都需要在保持图片整体视觉效果情况下对图片中的文字进行替换。

对自然场景中的文字进行编辑是一个具有挑战性的课题,一是因为自然场景中文字变化极大,字体、颜色、大小、透明度等有很大差异;二是因为自然场景中背景复杂、纹理细节较多、局部不均匀等因素,导致现有风格迁移方法[1][2][3]很难做到既完成文字风格的迁移,又做到文字与背景的完美融合。

图2  自然场景文字复杂多样

二、方法原理简述

图3 网络整体框架图

图3是这篇文章提出的SRNet(风格保持网络)的整体结构,由于场景文字复杂多样,本文方法采取模块分解的思路将前景和背景分开进行处理。

网络主要可以分为3个部分,分别是Text conversion module,Background inpainting module和Fusion module。

Text conversion module由Encoder-decoder结构组成,负责完成与文字有关的特征的迁移,如文字字体、颜色、形变等信息,目标是生成具有指定文字内容、同时包含风格图片中文字风格特征的前景图像。

在实践中发现,生成过程中经常会出现文字结构不完整、笔划断裂等情况,导致文字语义信息模糊难辨。为了解决这一问题,本文在解码时同时生成了文字骨架并引入监督,从而使得生成图片中的文字笔画结构更具有完整性。

Text conversion module主要负责将输入风格图片中的文字进行擦除,同时修复纹理信息,保证生成的背景图片无瑕疵、自然清晰。

在该模块中还将编码器和解码器的特征图使用跳跃连接[4]进行信息传递,同时将解码器的特征输入到随后的融合模块解码阶段,辅助融合过程,有效改善背景模糊和虚影的情况。

Background  inpainting module负责将生成好的前景和背景进行有机融合,产生最终结果。在这个部分本文将前景图片编码后的特征结合背景修复模块解码阶段的特征,使得前景和背景能适宜、渐进地进行无缝结合。

整个网络是端到端训练的,本文在三个子模块中都采用了GAN[5]结构来帮助生成更真实合理的结果。本文的方法不仅可以完成同语种的编辑任务,还可以完成跨语种编辑以及文字擦除任务。

由于真实图片中不存在成对的数据集,本文采用合成数据进行训练,在真实场景图片中进行测试。

三、主要实验结果及可视化结果

图4 英文短词转换效果图

图5 英文长词转换效果图

图6 变长英文单词转换效果图

图7 其他方法视觉对比图

图8 文字擦除效果图

图9 英-中翻译效果图

表1 定量评价结果

本文在ICDAR2013真实场景数据集上测试了方法的效果。图4图5图6分别展示了源文字目标文字都是英文情况下,都为短词、都为长词、前后单词长度不一的编辑效果。图7展示了本文的方法与经典图片翻译算法pix2pix的效果对比。

图8展示了本文提出方法的词条级文字擦除能力。图9展示了源文字为英文,目标文字为中文的跨语种翻译效果。表1通过在l2 error、PSNR、SSIM、seq_acc(编辑后识别准确率)等指标上定量分析对比,证明了本文提出方法的优越性。

四、总结及讨论

本文提出了一种用于自然场景文本编辑任务的端到端网络,它可以在保持场景文本图像原有风格的同时,替换其中的文字内容,并与原图片达到一致的可视化效果。

实现这一功能主要分为三个步骤:

(1)在骨架的帮助下,提取前景文字风格特征,并将其转换到输入文本上;

(2)擦除风格图片中的文字并用合适的纹理修复,得到背景图像;

(3)将被转换的文本与已擦除的背景合并。

本文的方法在主观视觉真实性和客观定量评分方面取得了优异的结果。同时,该网络还具有文本擦除和跨语言编辑的能力,本文通过全面的ablation study验证了提出网络SRNet的有效性。

五、相关资源

  • Editing Text in the Wild 论文地址:https://arxiv.org/pdf/1908.03047.pdf

  • Multi-Content GAN for Few-Shot Font Style Transfer 论文地址: https://arxiv.org/pdf/1712.00516.pdf

  • Image-to-Image Translationwith Conditional Adversarial Networks  论文地址:https://arxiv.org/pdf/1611.07004.pdf

  • EnsNet: Ensconce Text in the Wild 论文地址:https://arxiv.org/pdf/1812.00723.pdf

参考文献

[1] Samaneh Azadi,Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman, and Trevor Darrell. 2018. Multi-content gan for few-shot font style transfer.In CVPR. 7564–7573.

[2] Shuai Yang, Jiaying Liu, Wenjing Wang, and Zongming Guo, 2019. Tet-gan: Text effectstransfer via stylization and destylization. In AAAI, Vol. 33. 1238–1245.

[3] Shuai Yang, Jiaying Liu, Wenhan Yang, and Zongming Guo. 2018. Context-AwareUnsupervised Text Stylization. In ACM Multimedia. ACM, 1688–1696.

[4] Olaf Ronneberger, Philipp Fischer, and Thomas Brox, 2015. U-net:Convolutional networks for biomedical image segmentation. In MICCAI. Springer,234–241.

[5] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative adversarial nets. InNeurIPS. 2672–2680.

[6] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros, 2017. Image-to- imagetranslation with conditional adversarial networks. In CVPR. 1125–1134.

[7] Shuaitao Zhang, Yuliang Liu, Lianwen Jin, Yaoxiong Huang,and Songxuan Lai, 2019. EnsNet: Ensconce text in the wild. In AAAI, Vol. 33. 801–808.


原文作者:Liang Wu, Chengquan Zhang, Jiaming Liu, Junyu Han, Jingtuo Liu, Errui Ding,  Xiang Bai

撰稿:吴亮,章成全

编排:高  学

审校:殷  飞

发布:金连文


免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


OCR交流群

OCR交流群是52CV最活跃的技术交流群之一,关注文本检测、识别、风格化、文本编辑相关技术,聚集了大量学术界和产业界的朋友,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:OCR

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

神奇的文本编辑,惊人的移花接木 | ACM MM 2019 论文赏析相关推荐

  1. 7篇必读ACM MM 2019论文:图神经网络+多媒体

    多媒体国际顶级会议 ACM Multimedia 2019已于2019年10月21日至25日在法国尼斯举行.图神经网络在多媒体领域应用非常多,本文整理了七篇ACM MM 2019最新GNN相关论文,并 ...

  2. VIPL Lab 9篇ACM MM 2019和IEEE TIP 论文精解

    点击我爱计算机视觉标星,更快获取CVML新技术 春华秋实,硕果累累.近期,中国科学院计算技术研究所视觉信息处理与学习研究组(VIPL实验室)再创佳绩,有6篇论文被ACM MM 2019接收,还有3篇文 ...

  3. ACM MM最佳论文全文:通过多对抗训练,从图像生成诗歌

    雷锋网 AI 科技评论按:多媒体信息处理领域顶级学术会议 ACM MM 2018(ACM International Conference on Multimedia)于 2018 年 10 月 22 ...

  4. ACM MM 2018论文概述:基于多粒度监督的图像语义物体协同标注

    作者丨张立石.付程晗.李甲 学校丨北京航空航天大学 研究方向丨计算机视觉 介绍 本文概述了被 2018 年 10 月 ACM Multimedia 会议录用为 Oral 的论文:Collaborati ...

  5. 今日arXiv精选 | ICCV 2021/CIKM 2021/ACM MM 2021

     关于 #今日arXiv精选  这是「AI 学术前沿」旗下的一档栏目,编辑将每日从arXiv中精选高质量论文,推送给读者. SUNet: Symmetric Undistortion Network ...

  6. ACM MM 2021 北航鹏城实验室提出 SOD 新方法:互补三边解码器网络(CTDNet),兼顾高性能和高效率...

    关注公众号,发现CV技术之美 本文分享 ACM MM 2021 论文『Complementary Trilateral Decoder for Fast and Accurate Salient Ob ...

  7. ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!

    作者 | III  编辑 | 汽车人 原文链接:https://zhuanlan.zhihu.com/p/547671620 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷 ...

  8. ACM MM 2022 | 基于GMM的多重prototype,助力UDA语义分割新SOTA

    ©作者 | 陆裕磊 单位 | 浙江大学 研究方向 | 图像分割领域自适应 论文标题: Bidirectional Self-Training with Multiple Anisotropic Pro ...

  9. 你与ACM MM的距离只差一场算法比赛

    你与ACM MM的距离只差一场算法比赛 伴随5G时代来临,视频广告迎来爆发式增长,在广告创意/投放/策略等广告系统的关键环节中,对视频广告内容的深度理解越发显得重要且迫切. 因此,2021腾讯广告算法 ...

最新文章

  1. @芥末的糖----------《管理系统后台架构逻辑》
  2. Python标准库queue模块原理浅析
  3. Windows XP Professional系统修复的操作方法
  4. 利用NLTK进行分句分词
  5. 3. golang 流程控制
  6. fdisk分区命令详解与fdisk非交互式分区
  7. c++ 一个函数包括多个返回值判断_轻松玩转函数式编程
  8. Linux-2.6.20的cs8900驱动分析
  9. Actor-ES框架:消息发布器与消息存储器
  10. CAS单点登陆的两个原理图
  11. 零基础30分钟开启你的快速开发之旅
  12. Redis 管道技术——Pipeline
  13. 最近见了几位东半球的顶级技术大拿
  14. Gmail最新功能实测:离线版上线增加手势(多图)
  15. optistruct中的DRESP2响应设置
  16. 国科大2018级信息论考试复习
  17. ios云信不能全屏_网易云信-新增自定义消息(iOS版)
  18. android 微信分享 源码,记录Android微信分享功能的吐槽与思考
  19. 全国第17届计算机辅助设计与图形学(cad/cg)学术会议论文集,征稿资讯-CCF第24届全国计算机辅助设计与图形学学术会议 (CCF CAD/CG 2021)...
  20. 推荐几个美女和年薪百万大佬的公众号!

热门文章

  1. Golang指针,for循环
  2. 矩阵问题入门(矩阵乘法and矩阵快速幂)acm寒假集训日记22/1/15
  3. Good Bye 2021: 2022 is NEAR A-Integer Diversity(水题)
  4. 运维常用进程查看命令
  5. Mac上VScode使用clang-format格式化c++代码
  6. npm 更换插件版本_Node CLI 工具的插件方案探索
  7. 计算机网络利用率是什么_当我们在谈论高并发的时候究竟在谈什么?
  8. 学习阶段怎么模拟_掌握学习方法,早日取得执业药师证
  9. python简单体育竞技模拟_python初体验 —— 模拟体育竞技
  10. 【debug】json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)