白翔团队新作:借助CLIP完成场景文字检测
作者:秃头小苏
编辑:3D视觉开发者社区
原文链接:https://arxiv.org/pdf/2302.14338.pdf
代码链接:https://github.com/wenwenyu/TCM
引 言
场景文字检测(Scene text detection)旨在从自然图像中定位每个文本实例的边界框或多边形,因为它具有广泛的实际应用场景,如办公自动化、即时翻译、自动驾驶和在线教育。随着全监督深度学习技术的快速发展,场景文本检测取得了显着进步。尽管监督方法在文本检测领域取得了显着进步,但它们需要广泛而精细的注释,例如字符级、单词级和文本行级边界框,尤其是用于任意形状场景文本的多边形框。所以,研究少量标记数据下的文本检测方法非常重要,即少样本训练市非常有意义的。
最近,通过利用预训练的视觉和语言知识,大规模对比语言-图像预训练的CLIP模型在各种视觉任务中展示了非常强大的能力。而作为语言和视觉模态信息的桥梁,很自然而然地会开始思考,能不能借助CLIP完成 Scene text detection呢?
与一般的目标检测相比,自然图像中的场景文本通常同时呈现视觉和丰富的字符信息,这与CLIP模型有着天然的联系。因此,如何充分利用来自视觉、语义和文本知识的跨模态信息来提高文本检测模型的性能在最近的研究中受到越来越多的关注。例如,受 CLIP 启发,Song等人采用细粒度的跨模态交互来对齐单模态embedding,以便通过精心设计的预训练任务学习更好的representation。Xue提出了一种弱监督预训练方法来联合学习和对齐视觉和部分文本信息,以学习用于场景文本检测的有效视觉文本表示。与之前的方法相比,本文提出了一种新方法,称为TCM。这个方法的重点是将CLIP模型直接用于文本检测而不需要预训练过程。但是如下图所示,他们都是two-stage的,显然不够直接和高效,也无法进行迁移泛化。
可以看到,之前的两种方法都需要完成两个部分,即对text或者image的encoder进行先预训练,然后进行fine-tuning。但是由于CLIP强大的zeo-shot和few-shot能力,我们其实已经拥有了一个超级强大的text encoder,所以fine-tuning就显得不那么重要,而直接进行text embedding和visual embedding的matching显然是一种更加高效和直接的方法。与其他基于视觉语言模型的预训练方法相比,TCM具有以下优点:
它可以应用于改进现有的场景文本检测器。它便于现有方法进行少样本训练,例如使用10%的标记数据,新方法在4个基准测试中平均提高了22%的F-measure。
通过将CLIP模型转换为现有的场景文本检测方法,进一步实现了有前途的领域自适应能力。
方 法
本文的framework其实很直接,来看具体是怎么完成的。
CLIP的回顾
首先回顾一下CLIP,CLIP收集了 4 亿个图文对用于模型预训练,很好地展示了学习可迁移知识和开放式视觉概念的潜力。CLIP模型是天生的文多模态模型,可以有效抽象图像和文本之间的latent space空间。可以发现模型可以比较好地完成文字内容的匹配。
给定一批图像-文本对,对于每个图像,CLIP 最大化与匹配文本的余弦相似度,同时最小化与所有其他不匹配文本的余弦相似度。对于每个文本,也就是对比学习的思路。然而,要利用此类模型中的相关信息,有两个先决条件:
白翔团队新作:借助CLIP完成场景文字检测相关推荐
- 基于深度学习的目标检测及场景文字检测研究
基于深度学习的目标检测及场景文字检测研究 转载自:https://blog.csdn.net/u013250416/article/details/79591263 一.目标检测与场景文字检测定义 目 ...
- CVPR 2023 | 白翔团队提出:将CLIP模型用于场景文本检测
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[计算机视觉]微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文简要介绍CV ...
- 基于YOLOv3 与CRNN的中文自然场景文字检测与识别
(欢迎关注"我爱计算机视觉"公众号,一个有价值有深度的公众号~) 52CV君曾经分享过多篇关于文字检测与识别的文章: 华科白翔老师团队ECCV2018 OCR论文:Mask Tex ...
- SSD: Signle Shot Detector 用于自然场景文字检测
前言 之前我在 论文阅读:SSD: Single Shot MultiBox Detector 中,讲了这个最新的 Object Detection 算法. 既然 SSD 是用来检测物体的,那么可不可 ...
- c++实验总结_史上最全场景文字检测资源合集(70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息)...
本文总结了2012年以来在场景文本检测领域的70篇代表性论文.21个常用数据集.15份开源代码,包含176个实验结果以及超过1300条统计信息.Github资源链接见文末. 一.前言 许多自然场景中包 ...
- 史上最全场景文字检测资源合集(70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息)...
点击上方"AI算法与图像处理",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:刘崇宇 转载自:CSIG文档图像分析与识别专委会 本 ...
- CVPR 2022 | 网易华科提出特征采样与分组:基于Transformer的场景文字检测方法
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:CSIG文档图像分析与识别专委会 本文简要介绍了CVPR 2022录用的论文"Few Co ...
- 计算机视觉与深度学习 | TensorMask: A Foundation for Dense Object Segmentation(何凯明团队新作)近5年目标检测综述
博主github:https://github.com/MichaelBeechan 博主CSDN:https://blog.csdn.net/u011344545 ================= ...
- 在服务器上搭建基于yolo3 与crnn 实现中文自然场景文字检测及识别,GPU版本
Github地址 参考地址 作者大人,十分热心,对于我的问题,提供了大量的帮助,使我少走了很多的弯路,在此表示由衷的感谢 注意事项 使用nvidia-smi命令查看cuda的版本,必须是10.1或者1 ...
最新文章
- eclipse设置java虚拟机内存大小
- Fsharp 类中的空字段
- 添加Altium Designer 3D封装
- 获取分组后取某字段最大一条记录(求每个类别中最大的值的列表)
- [Spring MVC] - InitBinder验证
- TCP/IP 协议栈 -- 编写UDP客户端注意细节
- html分页实现w3c,分页_w3cschool
- 计算宝宝帐户收益(多重继承)_【067】遗漏因子、缺失数据与多重检验
- 智能家居系统c语言源代码,智能家居软件设计(附源程序).doc
- JavaScript学习笔记
- 格雷码与二进制码的互换
- 网课作业答案在哪找?手把手教你查大学网课作业答案~
- 大数据领域常用算法总结
- 用typhon制作嵌入式Chromium浏览器
- 【C语言程序】求直角三角形边长
- 什么是Python爬虫?一篇文章带你全面了解爬虫
- 三星s8html查看器,【三星GALAXYS8评测】屏幕:全视屏显示素质经得起数据检验_三星 GALAXY S8_手机评测-中关村在线...
- 中国传统的节日(端午节)
- 依赖注入与pimple
- html是什么排列规律,单数和双数是什么 有什么排列规律