【论文阅读】Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution

  • 摘要
  • 方法
    • Pixel-wise Supervision Module
    • Stroke-Focused Module
  • 结论

摘要

一些提出的解决文本图像的超分辨率方法忽略了笔画的视觉质量(文本的原子单位)在文本识别中起着至关重要的作用这一事实。当人类观察低分辨率文本图像时,他们会固有地使用部分笔画级细节来恢复整体字符的外观。受格式塔心理学的启发,本文提出了一种包含笔画聚焦模块(SFM)的笔画感知场景文本图像超分辨率方法,以专注于文本图像中字符的笔画级内部结构。具体来说,本文尝试设计用于在笔划级别分解英文字符和数字的规则,然后预训练文本识别器以提供笔划级别的注意力图作为位置线索,以控制生成的超分辨率图像与生成的超分辨率图像之间的一致性。

方法

Pixel-wise Supervision Module

与Scene Text Telescope: Text-Focused Scene Image Super-Resolution相同
利用L2损失衡量:

Stroke-Focused Module

为了利用更细粒度的注意力图,我们在两个合成数据集上预训练了一个基于 Transformer 的识别器,包括 Synth90k 和 SynthText ,笔画级别标签。 更具体地说,给定字符级标签 cGT = {c1, c2, …, ct},我们分解每个字符并将它们连接起来以构造笔画级标签 sGT = {s1, s2, …, st0} , 其中 t 和 t0 表示两个不同级别 (t ≤ t0 ) 的标签的最大长度。当达到收敛时,我们丢弃在训练期间使用交叉熵损失监督的序列预测 ypred,并且只利用多头自注意力模块生成的笔画级别注意力图序列作为笔画级别位置线索。将 HR 图像的注意力图表示为 AHR = {A1 HR, A2 HR, …, At0 HR},将 SR 图像表示为 ASR = {A1 SR, A2 SR, …, At0 SR},然后采用一个 L1 损失来约束这两个映射如下:

结论

在本文中,我们提出了一种受格式塔心理学启发的笔画感知场景文本图像超分辨率方法,突出了笔画区域的细节。 所提出的方法确实可以生成更多可区分的超分辨率文本图像。 如实验结果所示,所提出的 SFM 能够在 TextZoom 和中文手写十个数据集上实现最先进的性能,而不会引入额外的时间开销。

【论文阅读】Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution相关推荐

  1. 《论文阅读》Commonsense Knowledge Aware Conversation Generation with Graph Attention

    <论文阅读>Commonsense Knowledge Aware Conversation Generation with Graph Attention 简介 论文试图解决什么问题? ...

  2. 【论文阅读】Gait Quality Aware Network: Toward the Interpretability of Silhouette-Based Gait Recognition

    Gait Quality Aware Network: Toward the Interpretability of Silhouette-Based Gait Recognition 摘要 Intr ...

  3. 论文阅读:Generating Videos with Scene Dynamics

    目录 Contributions Method 1.Video Generator Network 2.Video Discriminator Network Results 1.Quantitati ...

  4. 论文阅读《Block-NeRF: Scalable Large Scene Neural View Synthesis》

    论文地址:https://arxiv.org/pdf/2202.05263.pdf 复现源码:https://github.com/dvlab-research/BlockNeRFPytorch 概述 ...

  5. UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World(译)

    UnrealText:合成来自虚幻世界的真实场景文本图像 仅供参考,如翻译不到的请指出,侵权删 来源: CVPR2020,旷视 code 链接: https://jyouhou.github.io/U ...

  6. EAST: An Efficient and Accurate Scene Text Detector 论文阅读

    EAST: An Efficient and Accurate Scene Text Detector 论文阅读 Reference 正文 摘要 引言 相关工作 方法 算法 网络设计 标签生成 损失函数 ...

  7. 【论文阅读】Scene Text Image Super-Resolution in the Wild

    [论文阅读]Scene Text Image Super-Resolution in the Wild 摘要 引言 相关工作 TextZoom数据集 方法 pipeline SRB 中央对齐模块 梯度 ...

  8. 《Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting》论文阅读笔记

    论文阅读笔记 去年在ECCV上发表的<Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spott ...

  9. 论文阅读(Xiang Bai——【arXiv2016】Scene Text Detection via Holistic, Multi-Channel Prediction)...

    Xiang Bai--[arXiv2016]Scene Text Detection via Holistic, Multi-Channel Prediction 目录 作者和相关链接 方法概括 创新 ...

最新文章

  1. 进阶学习(3.8) Component Pattern 组合模式
  2. Gartner:到2020年人工智能将创造出230万个工作岗位
  3. VTK:小部件之LineWidget2
  4. 会议论文_InVisor会议论文辅导发表
  5. 实践案例丨云连接CC实现跨区域多VPC与线下IDC Server互联
  6. python编程语言_Python编程语言的历史
  7. 纯css3代码写九宫格效果
  8. 将路由器作为AP组建局域网的方法
  9. 橡胶支座抗压弹性模量计算公式_板式橡胶支座抗压弹性模量检测方法的试验研究...
  10. 曲线拟合最小二乘法对数c语言实现,基于最小二乘法的曲线拟合
  11. 微信公众号 苹果手机圆角失效
  12. 虚拟相机IOS手机端安装教程
  13. .NET-9.乱七八糟的理论笔记(概念,思想)
  14. cache 是什么意思 它包括的L1,L2,L3分别是什么东西
  15. 请介绍一下三地菩萨,再说一说,要证悟什么才能称之为三地菩萨.谢谢.
  16. 宇宙精密调治的再思《基督教与科学》第二十三课
  17. GUI 图形用户界面编程(十一)-扑克界面设计
  18. python的pytest模块:pytest命令行详解
  19. 大学生如何让自己强大起来(计算机、电子方向)
  20. STM32掌机教程2,掌机的原理

热门文章

  1. 程序员之间的各种鄙视链
  2. CUDA学习笔记(LU分解)
  3. STM32——光敏传感器实验-M4
  4. java 管道设计_设计模式——管道模式
  5. Pico XR Unity开发时如何设置应用版权保护
  6. 完成第一个微信小程序组件
  7. matlab2012卸载,matlab2012一些函数删除后的替代解决方法及用到操作
  8. 条码打印机的场景应用及条码打印机的特点有哪些
  9. 艾伟_转载:我对NHibernate的感受(1):对延迟加载方式的误解
  10. Linux磁盘I/O(二):使用vm.dirty_ratio和vm.dirty_background_ratio优化磁盘性能