对超分有兴趣的同学们可直接关注微信公众号,这个号的定位就是针对图像超分辨的,会不断更新最新的超分算法解读。

目录

  • 重点提要
  • 数据集
  • 网络结构
    • 1. Pixel-Wise Supervision Module
      • 1.1. STN
      • 1.2. TBSRN-n
      • 1.3. Pixel shuffle
    • 2. Position-Aware Module
    • 3. Content-Aware Module
  • 损失函数
  • 结语

正文开始
论文:Scene Text Telescope: Text-Focused Scene Image Super-Resolution
参考

  1. GitHub代码库
  2. Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution(目前404)
  3. STT文字图像超分辨网络

复旦2021CVPR的一篇文字超分的文章,后续还有一篇(参考文献中),预计2022投AAAI的,做文字超分的同学们可以留意一下。

重点提要

  1. 图像对齐模块,解决双机位采集HR-LR数据集的问题。
  2. 新的网络映射模型,兼顾文字语义信息。替代BLSTM,采用了Self-attention+Position-Wise Feed-Forward机制。
  3. 文本位置监督,强化文本区域的生成,忽视非文本的背景区域。
  4. 引入文字识别网络,进行文本内容监督,强化文本内容清晰度。

数据集

TextZoom数据集,双机位拍摄,LR是真实图像,关于详细介绍请巴拉这篇论文。

网络结构

网络分为3个部分,分别为Pixel-Wise Supervision Module、Position-Aware Module、Content-Aware Module三块。

1. Pixel-Wise Supervision Module

1.1. STN

是中心对齐模块,是网络的对齐阶段。因为LR图像并不是生成的,而是直接用相机采集得到的,所以LR图像中心和HR图像中心并不一致,使用STN可以使二者中心对齐,对齐后的图像才能输入网络进行训练。
该模块仅在使用TextZoom数据集且在训练时才有用,在自己生成的数据集或网络推理阶段无效。

1.2. TBSRN-n

TBSRN-n是n个TBSRN模块进行堆叠得到,是网络的特征提取阶段。每一个TBSRN块如上图所示,实际上是一系列复杂的映射。输入首先经过2个连续的CNN映射,然后将映射后的特征图与Px和Py进行拼接,Px和Py的计算方式如下:

拼接后,进行展开,然后输入Self-Attention和Position-Wise Feed-Forward完成信息提取,之后重塑形状,恢复为输入时的特征图尺寸。

1.3. Pixel shuffle

是网络的上采样阶段。这是常见的上采样方式,最早应该是在EDSR中见过。在此不再描述。
之后通过L2损失计算HR和SR之间的像素级别损失得到Lpsm损失。

2. Position-Aware Module

为了突出文字区域的重要性而设计的,使网络更少的关注背景信息。首先训练一个基于识别模型的transformer,然后输入HR图像,该transformer将输出一系列attention maps,maps数量取决于文本lable长度。然后对SR图像也做同样的处理,可得到和HR图像对应的一系列attention maps。然后二者之间的maps通过L1损失进行计算得到损失Lpos。

3. Content-Aware Module

这部分通过冻结刚才训练好的transformer,然后通过文字识别的方式,将识别结果与文本lable进行对比,计算损失函数,这部分的损失Lcon造成的梯度反向传播,不会影响transformer的参数(该部分参数已经被冻结),而是会影响生成网络的参数也就是Pixel-Wise Supervision Module,使其生成更逼真的文本图像。
对于低分图像中难以分辨的字符(例如c和e)作者通过训练一个变分自编码器,探索相似字符的潜在空间表征来解决。

损失函数

结语

这篇文章的相对复杂,有些内容需要根据代码和具体的数学推导才能弄明白,由于时间原因就不过多讲解。感兴趣的同学可以参考原论文。

STT文字图像超分辨网络相关推荐

  1. ECCV 2020 | 空间-角度信息交互的光场图像超分辨,性能优异代码已开源

    光场相机可以记录当前场景不同视角的图像,每个视角图像的上下文信息(空间信息)与不同视角之间的互补信息(角度信息)都有助于提升图像超分辨的性能. 近日,来自国防科技大学.上海科技大学等单位的学者提出了新 ...

  2. 双目图像超分辨:现状、挑战与展望

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 双目图像超分辨(Stereo Image SR)当前处于起步阶段,领域内算法数量不多,性能还有较大的提 ...

  3. 【视频课】业界最强数据增强库使用与人脸图像超分辨实践!

    前言 数据是深度学习系统的输入,对深度学习的发展起着至关重要的作用,但是又容易被很多人忽视,尤其是缺少实战的学习人员.数据增强又是其中至关重要的内容,为了让大家能够掌握好深度学习中数据的使用,我们开设 ...

  4. 【每周CV论文】初学深度学习图像超分辨应该要读的文章

    欢迎来到<每周CV论文>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像超分辨是一个非常实际应用价值的方向,今天给大 ...

  5. FSRNet:端到端深度可训练人脸超分辨网络

    作者丨左育莘 学校丨西安电子科技大学 研究方向丨计算机视觉 这篇文章 FSRNet: End-to-End Learning Face Super-Resolution with Facial Pri ...

  6. [Python人工智能] 三十.Keras深度学习构建CNN识别阿拉伯手写文字图像

    从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章分享了生成对抗网络GAN的基础知识,包括什么是GAN.常用算法(CGAN.DCGAN.infoGAN.WGAN). ...

  7. pythonb超分辨成像_深度原理与框架-图像超分辨重构-tensorlayer

    图像超分辨重构的原理,输入一张像素点少,像素较低的图像, 输出一张像素点多,像素较高的图像 而在作者的文章中,作者使用downsample_up, 使用imresize(img, []) 将图像的像素 ...

  8. 多功能的图像超分辨模型:用于盲图像超分辨的非对称卷积神经网络

    哈工大.台湾国立清华大学与香港中文大学的研究人员联合提出用于盲图像超分辨的非对称卷积网络,该文收录于IEEE Transactions on Systems, Man, and Cybernetics ...

  9. 近期两篇双目图像超分辨算法论文解读 |AAAI2020 SPL2020

    点击我爱计算机视觉标星,更快获取CVML新技术 本文为52CV群友谦Sir投稿. 双目图像可以提供同一场景左右两个视角的信息.合理利用双目图像所包含的互补信息可以进一步提升图像超分辨的性能. 随着双摄 ...

最新文章

  1. org.springframework.jdbc.BadSqlGrammarException: CallableStatementCallback; bad SQL grammar
  2. 4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授
  3. XML DOM 节点
  4. jmeter之录制控制器与代理的使用
  5. Could not load driverClass “com.mysql.jdbc.Driver“
  6. spring boot配置mybatis和事务管理
  7. C#LeetCode刷题-排序
  8. Airflow 中文文档:使用操作器
  9. 【冒泡排序】c++实现冒泡排序代码
  10. 计算机课教师评价,教师课堂评价语集锦
  11. 单声道数据转双声道_单声道转双声道
  12. ESP32-Doit板(一)
  13. 科目二考试技巧全总结
  14. 足球相关的英文专业术语(持续更新中...Ctrl+F可直接进行搜索)
  15. 如何让Fresco支持HEIF/HEIC图片格式
  16. 爱思助手安卓能用吗_苹果的蓝牙耳机安卓能用吗
  17. msvcp140.dll丢失VCRUNTIME140_.dll丢失的解决办法
  18. uniapp发布h5
  19. Koordinator 0.6:企业级容器调度系统解决方案,引入 CPU 精细编排、资源预留与全新的重调度框架...
  20. Dependency annotations:

热门文章

  1. PTA-圆形体积计算器
  2. 【笔记】浮动属性float的应用02——浮动图像和标题
  3. 如何安装oracle 的服务器,应用:一步一步教你如何安装Oracle 10g
  4. 数人云|12条军规说Dev,3大重点讲Ops——当当网的云原生之路
  5. java azure blobs sas_使用Azure.storage.blobs在。NET Core 3.1中生成SAS过期令牌
  6. oh-my-zsh(更强大的命令行工具)
  7. IJCAI-21三大奖项公布,强化学习之父、CMU助理教授方飞、德扑AI之父获奖
  8. 从json提取数据,保存成txt格式
  9. 计算机开机白屏怎么处理,电脑打开白屏怎么回事
  10. 使用VIVADO 2019.1 搭建以太网接口