视学算法报道

转载自:机器之心

编辑:陈萍

你在纸上写个词,AI 只要看一眼就能模仿你的笔迹,还是看起来毫无破绽的那种。

Facebook 近日公布了一项新的图像 AI——TextStyleBrush,该技术可以复制和再现图像中的文本风格。

借助该技术,你只需要输入一个词作为「标准」,AI 就能全篇模仿你的书写风格,一键执行,效果可谓惊艳。

此外,你还可以用它替换不同场景中的文字(比如海报、垃圾桶、路标等)。下图中左侧为原始场景图像,单词显示在蓝色矩形中;右侧为文本替换后的图像。

从图中可以看出,各种风格的字体 AI 几乎都能 hold 住。下图中每个图像对在左边显示输入源样式,在右边显示新内容(字符串),左右两端字体看起来风格完全相同。与源图像相比,输出的图像在外观上似乎都有些模糊,但我们可以看到,在大多数情况下,该技术似乎工作得很好。

与其他字迹模仿 AI 相比,TextStyleBrush 功能更强大,可以从更细微的角度分析文字样式,从而做到在各种角度和背景下进行字迹模仿。

下图是酱油瓶(Soya)替换为茶瓶(Tea)的实现过程:

这款强大的模仿神器正是 Facebook AI 推出的「TextStyleBrush」,只需输入一个单词,就能完美复现笔迹。这项技术的原理类似于文字处理 APP 中的样式笔刷工具,可以将文字和风格分开。

  • 论文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n.pdf?_nc_cat=108&ccb=1-3&_nc_sid=ae5e01&_nc_ohc=Jcq0m5jBvK8AX--fG2A&_nc_ht=scontent-sjc3-1.xx&oh=8b7e8221bba5aba6b6331c643764dec5&oe=60EF2B81

  • 数据集地址:https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset

它具有以下特点:

  • 只需要一个单词,就能复制照片中的文字风格。使用该 AI 模型,你可以编辑和替换图像中的文本。

  • 与大多数 AI 系统不同的是,TextStyleBrush 是首个自监督的 AI 模型,使用单个示例词一次性替换手写和图像中的文本。

  • 将来它会在个性化信息和字幕等领域释放新的潜力,比如在增强现实 (AR) 中实现逼真的语言翻译。

  • 通过公布这项研究所具有的能力、方法和结果,研究者希望推动对话和研究,以发现这类技术的潜在应用,如深度假文本攻击——这是人工智能领域的一大挑战。

由于 TextStyleBrush 也可能被用来制作误导性的图像,所以 Facebook 的 CTO 在个人社交网站表示,他们只发布了论文和数据集,但没有公开代码。并表示正如我们对 deepfakes 的方法一样,我们认为共享研究和数据集将有助于构建检测系统并提前预防攻击。

可以学习文本风格表征的 TextStyleBrush

用 AI 生成图像一直在以惊人的速度发展,这种生成技术能够重现历史场景,或者将照片变成梵高等绘画风格。现在,Facebook AI 已经建立了一个可以替换场景和手写文本风格的 AI,只需要一个单词作为输入。

虽然大多数 AI 系统都可以完成定义明确的、专门的任务,但构建一个足够灵活的 AI 系统,以理解现实场景中文本和手写体的细微差别,具有很大的挑战。这意味着需要了解众多的文本样式,不仅包括不同的字体和书写风格,而且也包括不同的转换,如旋转、弯曲的文字以及图像噪声等问题。

Facebook AI 提出了 TSB(TextStyleBrush)架构。该架构以自监督的方法进行训练,没有使用目标风格监督,只使用了原始风格图像。该框架可以自动地寻找图片真实风格。在训练时,它假设每个词框有真实值(出现在框中的文本);推理时,它采用单一源样式图像和新内容(字符串),并生成带有目标内容的源样式的新图像。

该生成器架构是基于 StyleGAN2 模型。然而,它有两个重要的限制:

首先,StyleGAN2 是一个无条件模型,这意味着它通过对一个随机的潜在向量进行采样来生成图像。但 TextStyleBrush 必须要生成指定文本的图像。

其次,TextStyleBrush 生成的文本图像风格不受控制。文本风格涉及全局信息(例如调色板和空间变换),以及精细的比例信息组合(例如单个笔迹的细微变化。

研究者通过内容和风格表征来调节生成器以解决上述限制。通过提取特定于层的风格信息并将其注入到生成器的每一层来处理文本风格的多尺度特性。除了以期望的风格生成目标图像外,生成器还生成表示前景像素 (文本区域) 的软蒙版图像。通过这种方式,生成器可以控制文本的低分辨率和高分辨率细节,以匹配所需的输入风格。

该研究还引入了一种新的自监督训练准则,该准则使用字体(typeface)分类器、文本识别器和对抗式鉴别器来保留源风格和目标内容。首先,研究者通过使用预训练的字体分类网络来评估生成器捕获输入文本风格的能力。另外,他们使用预训练文本识别网络来评估生成图像的内容,以反映生成器捕获目标内容的效果。总而言之,这种方法能够对训练进行有效的自监督。

实验

表 2 提供了评估不同损失函数、风格特征扩展以及训练 TSB 时 mask 的作用消融实验结果。实验结果显示,TextStyleBrush 生成的图片在 MSE(合成误差)上大幅降低,PSNR(峰值信噪比)、SSIM(结构相似性)均获得了提高。

表 3 是在三种数据集图像上测得的文本识别准确率。实验结果显示,TSB 的识别效果最好,在 IC13 上的识别准确率为 97.2%,IC15 上的识别准确率为 97.6%,TextVQA 上的识别准确率为 95.0%。

表 4 提供了生成的手写文本的定量比较,将 TSB 方法与 Davis 等人 [14] 专门为生成手写文本而设计的 SotA 方法进行了比较。FID 分数越低,生成质量越好。显然,TSB 方法优于以前的工作。

TextStyleBrush 证明了 AI 在文字上面可以比过去更加灵活、准确地识别,但这项技术仍然存在许多问题,如无法模仿金属表面的字符或彩色字符等, Facebook 希望这项研究能继续扩展,突破翻译、自主表达和 deepfake 研究之间的障碍等。

失败案例。

参考链接:

https://ai.facebook.com/blog/ai-can-now-emulate-text-style-in-images-in-one-shot-using-just-a-single-word

© THE END

转载请联系机器之心公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

点个在看 paper不断!

给一个词就能模仿你的笔迹,Facebook这个AI强大到不敢开源代码相关推荐

  1. 折腾词库,一个词库互转程序

    我在之前写过一个小程序,用于实现QQ拼音.搜狗拼音.谷歌拼音和百度手机拼音输入法词库的互转,文章地址是:http://www.cnblogs.com/studyzy/archive/2009/12/3 ...

  2. 一个专门用来模仿飞蛾识别味道的神经网络,说明了为什么飞蛾的学习速度远超机器-----转载

    一个专门用来模仿飞蛾识别味道的神经网络,说明了为什么飞蛾的学习速度远超机器 原创: DeepTech深科技 3月15日 作为现代机器学习基石的深度神经网络,虽然模仿的是生物神经网络,但其实这两者之间有 ...

  3. 怎么判定一个词是不是刷的百度指数的

    怎么判定一个词是不是刷的百度指数的 我们做SEO的人员每天会在不同的平台信息.QQ群里.微信圈等等看到刷词.刷权重的文章或者谈论,但是有些新手包括一些做了好多年的人都不知道怎么判定一个词是不是被刷上来 ...

  4. 1 如何在计算机中表示一个词的意思?

    ​ 本章主要介绍了**如何在计算机中表示一个词的意思**,从WordNet,OneHot,到最重要的Word2Vec算法. 参考: https://www.zhihu.com/column/c_150 ...

  5. idea中选择一个词的快捷键

    idea中选择一个词的快捷键 在idea中选择一个词用carl+w快捷键 1,鼠标所在的地方按住carl+w键 2,再按w键 连续按w会依次会选中单词-整个字符串-整个字符串包含引号-整个字符串赋值语 ...

  6. Huggingface 实战 - 预测下一个词

    文章目录 项目说明 代码实现 加载数据集 数据加载器 模型 测试函数 训练 项目说明 本文在 distilgpt2 模型的基础上微调,使用 glue/sst2 数据集,训练预测下一个词的模型. 本文根 ...

  7. 如果用一个词形容 2018 年的区块链,你选哪个词?

    硅谷Live / 实地探访 / 热点探秘 / 深度探讨 小探发现了一个很有趣的现象:小探认识的几位区块链创业者.业内人士,都在今年剃了光头.你问为什么?当然是削发以明志了! 的确,2018 不仅对谷歌 ...

  8. 布朗大学的机器人能一笔一划临摹出蒙娜丽莎,还能模仿你的笔迹

    大数据文摘出品 作者:宋欣仪 书面语言是人类区别于其他生物的重要特点,有的生物可以和人类一样彼此交谈,但是只有人类可以写下有自己风格的字符:精巧的汉字,复杂的花体字母,每个人的笔迹都是独一无二的. 但 ...

  9. 一套代码编译出ios和android,Hippy: Hippy 是一个新生的跨端开发框架,目标是使开发者可以只写一套代码就直接运行于三个平台(iOS、Android 和 Web)...

    Hippy 跨端开发框架 介绍 Hippy 是一个新生的跨端开发框架,目标是使开发者可以只写一套代码就直接运行于三个平台(iOS.Android 和 Web).Hippy 的设计是面向传统 Web 开 ...

最新文章

  1. macOS 环境安装Flutter
  2. 第27讲:令人抓狂的 JavaScript 混淆技术
  3. 大牛书单 | 读书日,他们最近看了这些书
  4. linux命令:mkdir命令
  5. MFC开发IM-第八篇、调整各个控件的上下tab顺序
  6. java.nio异步线程安全的IO
  7. 前端开发负责人修炼指北
  8. 数据结构课程设计,迷宫问题求解
  9. 旅行商问题的离散布谷鸟搜索算法
  10. 计算机显示器分辨率,电脑显示器分辨率调多少合适
  11. 理解statsmodels中OLS对应基金alpha、beta、R-squared
  12. 使用 Python 生成迷宫
  13. 【three.js】3D模型创建 + 模型弹框 + 动画效果
  14. 特征重要性与shap值
  15. 如何开发一个小程序游戏?
  16. PMP-33项目质量管理
  17. 微软开源 纸牌游戏代码_5个适用于Linux的开源纸牌和棋盘游戏
  18. 移动应用界面设计的尺寸规范
  19. JVM之(Shenandoah、ZGC收集器)(基于《深入理解Java虚拟机》之第三章垃圾收集器与内存分配策略)(下)
  20. 搜书吧自动购买(下载)功能实现

热门文章

  1. 微软企业库4.1学习笔记(七)创建对象 续集1
  2. 七天学会「股票数据分析软件」的开发(中)
  3. 利用BP神经网络教计算机识别语音特征信号(代码部分SSR)
  4. Python 中少为人知的 10 个安全陷阱
  5. 赠书 | 实现病人数据自动分析建模,Python能做的比你想象得更多
  6. Java“拍了拍”你,面试其实没那么难...
  7. 快速适应性很重要,但不是元学习的全部目标
  8. GraphSAGE:我寻思GCN也没我厉害!
  9. 加速AI应用落地,英特尔AI 2.0的进阶之道
  10. AI入侵机械设计,苦逼的“机械狗”还有未来吗?