【文字识别】TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

2024-05-17 21:06:41

简介

在TrOCR中，提出了一种基于预先训练好的图像Transformer和文本Transformer模型的端到端文本识别方法。

实验表明，TrOCR模型在印刷、手写和场景文本识别任务上优于目前最先进的模型，达到SOTA。

与现有的文本识别模型不同，TrOCR是一种简单而有效的模型，它不使用CNN作为骨干。TrOCR使用与ViT/swin Transformer相同的图像Transformer方法，

它首先将输入文本图像调整为384×384，然后将图像分割成16x16patch的序列，用作图像Transformer的输入。

为了有效地训练TrOCR模型，编码器可以用预训练的ViT模型初始化，而解码器可以用预训练过的Bert模型初始化。

TrOCR优点有以下几个：

TrOCR使用预先训练好的图像Transformer和文本Transformer模型，它们利用大规模的未标记数据来进行图像理解和语言建模，而不需要一个外部语言模型。
TrOCR不需要任何卷积网络作为主干，也不引入任何特定于图像的归纳偏置（归纳偏置，让算法优先某种解决方案，这种偏好是独立于观测的数据的。常见的归纳偏置，包括：贝叶斯算法中的先验分布、使用某些正则项来惩罚模型、设计某种特殊的网络结构等），这使得模型非常容易实现和维护。
.在OCR数据集上的实验结果表明，TrOCR可以在印刷、手写和场景文本图像数据集上实现最先进的结果，而无需任何复杂的前后处理操作步骤。

网络结构

在TrOCR中采用了Transformer编解码器结构。Encoder用于获得图像patch的表示，Decoder用于生成视觉特征的指导的wordpiece序列和预测结果。

Encoder可以采用BEiT和DeiT初始化，区别在于BEiT缺少了Distill token。训练中随机mask掉图像的patch，然后让图像恢复原始的图像token。

Decoder使用过RoBERTa和MiniLM算法来进行初始化。

【文字识别】TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models相关推荐

光学字符识别 OCR （Optical Character Recognition）是什么？
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形状翻译 ...
光学字符识别（OCR，Optical Character Recognition）
简介 OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形 ...
OCR（Optical Character Recognition，光学字符识别）技术详解
OCR(Optical Character Recognition,光学字符识别)技术是一种将图像中的文字信息转换为文本的技术.在计算机视觉和人工智能领域,OCR 技术是一个非常重要的应用,它可以帮助 ...
OCR（Optical Character Recognition 光学字符识别）扫盲
了解OCR OCR是英文Optical Character Recognition 的缩写,中文意思就是通过光学技术对文字进行识别.OCR概念的产生是在1929年,德国的科学家Tausheck首先提出 ...
关于OCR（Optical Character Recognition，光学字符识别）
OCR(Optical Character Recognition,光学字符识别),是属于图型识别(Pattern Recognition,PR)的一门学问.其目的就是要让计算机知道它到底看到了什么, ...
Python，OpenCV中的光学字符识别（OCR Optical Character Recognition)
Python,OpenCV中的光学字符识别(OCR Optical Character Recognition 1. 什么是OCR? 2. 光学字符识别简史 3. 光学字符识别的应用 4. OSD 方 ...
A Survey on Optical Character Recognition System 光学字符识别系统综述
论文题目: 2017-A Survey on Optical Character Recognition System 摘要光学字符识别(OCR)是近年来研究的热点.它被定义为将文档图像数字化为 ...
入门深度学习OCR（Optical character recognition）开发
前言: 光学字符识别(OCR)指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程.目前OCR主要落地应用场景包括:自然场景文本检测识别.文档类印刷体文本检测识别.手写体文本检测识别.自然 ...
OCR EasyOCR + PaddleHub 光学字符识别（Optical Character Recognition, OCR）
EasyOCR pip install opencv-python pip3 install easyocr 简单测试一下 import os import easyocr import cv2 fr ...

最新文章

热门文章