向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程   公众号:datayx

常见的深度学习OCR过程中,会把文本检测与文本识别拆分成两个部分,通过先检测后识别的方法对图片中的文本进行OCR识别。在商汤的paper中,一种新的端到端快速检测识别模型给了我们一个很大的惊喜。

【论文题目】FOTS: Fast Oriented Text Spotting with a Unified Network

论文原文:https://arxiv.org/pdf/1801.01671.pdf

【论文摘要】偶然的场景文本定位被认为是文档分析社区中最困难和最有价值的挑战之一。大多数现有方法将文本检测和识别视为单独的任务。在这项工作中,我们提出了一个统一的端到端可训练的快速定向文本定位(FOTS)网络,用于在两个互补任务之间同时检测和识别,共享计算和视觉信息。特别地,引入RoIRotate以在检测和识别之间共享卷积特征。受益于卷积分析策略,与基线文本检测网络相比,我们的FOTS具有很少的计算开销,并且联合训练方法学习更多通用特征以使我们的方法比这两个阶段方法表现更好。ICDAR 2015,ICDAR 2017 MLT和ICDAR 2013数据集上的实验证明,所提出的方法显着优于最先进的方法,这进一步使我们能够开发出第一个面向实时的文本定位系统在保持22.6 fps的同时,ICDAR 2015文本定位任务超过了所有先前的最新成果超过5%。

【亮点】端到端快速文本检测识别、提出了RoIRotate

模型整体结构

FOTS的整体结构由四部分组成。分别是:卷积共享特征(shared convolutions),文本检测分支(the text detection branch), RoIRotate操作(RoIRotate operation),文本识别分支(the text recognition branch)。

FOTS是一个快速的端到端的集成检测+识别的框架,和其他two-stage的方法相比,FOTS具有更快的速度。FOTS通过共享训练特征,互补监督,从而压缩了特征提取所占用的时间。

下图,蓝色框为FOTS,红色框为其他two-stage方法,可以看出FOTS消耗的时间是two-stage时间的一半。

视频演示

实验效果

ICDAR2015结果

FOTS一个检测+识别一体化的框架,具有模型小,速度快,精度高,支持多角度等特点。大大减少了这四种类型的错误(Miss:遗漏了一些文本区域;False:将一些非文本区域错误地视为文本区域;Split:错误地将整个文本区域拆分为多个单独的部分;Merge :错误地将几个独立的文本区域合并在一起)。

实战案例

FOTS_TF(端到端的文本识别-NBA记分牌识别)

项目代码获取方式:

关注微信公众号 datayx  然后回复  商汤  即可获取。

AI项目体验地址 https://loveai.tech

训练数据

最终数据需要的形式是每个图片对应一个txt包含每一个bbox的(xyxyxyxy,gt)这样的label数据,比如ICDAR2015

train

python /FOTS_TF/main_train.py \
--batch_size_per_gpu=16 \
--num_readers=6 \
--gpu_list='0' \
--restore=False \
--checkpoint_path='checkpoints/bs16_1080p_v1106_aughsv/' \
--pretrained_model_path='models/model.ckpt-733268' \
--training_data_dir='training_img_1080p_v1106' \
--training_gt_data_dir='training_gt_1080p_v1106'

其中,checkpoint_path为要保存的模型的路径;pretrained_model_path为加载icdar的预训练模型路径。

test

python main_test_bktree.py \
--test_data_path='samples' \
--checkpoint_path='checkpoints/bs16_540p_v1106_aughsv/' \
--output_dir='outputs/outputs_bs16_540p_v1106_aughsv_2016' 

效果展示


阅读过本文的人还看了以下文章:

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

长按图片,识别二维码,点关注

商汤OCR文本检测+识别开源(FOTS),TF实现NBA记分牌识别相关推荐

  1. 重磅!商汤港中文等将开源ECCV2018MS COCO检测比赛冠军代码库

    重磅!商汤&港中文等将开源ECCV2018MS COCO检测比赛冠军代码库 原文出处: 我爱计算机视觉 来自商汤科技.港中文.浙大.悉尼大学.南洋理工大学的研究人员组成的团队MMDet,赢得了 ...

  2. 通用卡证信息高精度识别流程 OCR 文本检测 文本识别 身份证 银行卡

    目录 如何将一张身份证图像的信息识别出来? 身份证识别点我 银行卡识别点我 第一步 目标检测 第二步 图像校正 如何获取匹配点对坐标 求解透视变换矩阵 第三步 文本检测 CTPN 第四步 文本识别 C ...

  3. OCR文本检测模型:FCENet论文阅读笔记

    文章目录 前言 摘要(Abstract) 1. 介绍(Introduction) 2. 相关工作(Related Work) 3. 方法(Approach) 3.1 傅里叶轮廓嵌入(Fourier C ...

  4. 机器视觉 OpenCV—python 基于LSTM网络的OCR文本检测与识别

    文章目录 一.背景与环境搭建 二.文本检测与识别 一.背景与环境搭建 OpenCV的文本识别流程: OpenCV EAST 文本检测器执行文本检测, 我们提取出每个文本 ROI 并将其输入 Tesse ...

  5. Grid R-CNN解读:商汤最新目标检测算法,定位精度超越Faster R-CNN

    作者 | 周强 来源 | 我爱计算机视觉 Grid R-CNN是商汤科技最新发表于arXiv的一篇目标检测的论文,对Faster R-CNN架构的目标坐标回归部分进行了替换,取得了更加精确的定位精度, ...

  6. 首次适应算法_CVPR 2020丨?商汤TSD目标检测算法获得Open Images冠军

    编者按:此前,在文章<商汤科技57篇论文入选ICCV 2019,13项竞赛夺冠>里,商汤君报道了商汤科技荣获Open Images Object Detection Challenge 2 ...

  7. 获得Open Images冠军,商汤TSD目标检测算法入选CVPR 2020 ​

    本文转载自商汤科技SenseTime. https://zhuanlan.zhihu.com/p/131576433 编者按:此前,在文章<ICCV 2019 | 商汤科技57篇论文入选,13项 ...

  8. Grid R-CNN解读:商汤最新目标检测算法

    点击我爱计算机视觉标星,更快获取CVML新技术 Grid R-CNN是商汤科技最新发表于arXiv的一篇目标检测的论文,对Faster R-CNN架构的目标坐标回归部分进行了替换,取得了更加精确的定位 ...

  9. PaddlePaddle飞桨OCR文本检测——检测模型训练(二)

    上一篇安装https://blog.csdn.net/weixin_42845306/article/details/112688405 飞桨的OCR模型分为检测.识别和分类,先看检测. 检测就是将( ...

最新文章

  1. 比特币的锁定脚本与解锁脚本
  2. 大数据之“用户行为分析”
  3. 【Python基础】Python初学者必须吃透这69个内置函数!
  4. 方舟编译器服务器端Java怎么用_方舟编译器可以运行Hello World了!
  5. win10下vscode配置c语言环境
  6. 【随感】tomorrow ,new semester ,finally i have time to read some books~
  7. Springboot环境下mybatis配置多数据源配置
  8. 完美者常用软件光盘2008
  9. 计算机维护测试工作,(人才测评)桌面运维工程师的招聘入职测评方案
  10. socket服务器主动下发消息,socket服务器主动发送消息给客户端
  11. 微信消息模板——巨坑
  12. 记一次简单的分区加LVM划分练习
  13. JavaScript学习二
  14. 大学计算机word图文混排,WORD图文混排教学设计
  15. 使用Arthas热更新时,lombok注解导致mc命令编译失败
  16. 深度报告:一文看懂通信新基建五大方向
  17. 论python在金融行业的重要性论文_金融业发展的现状、问题与策略毕业论文
  18. SQL图文讲解操作12-多表查询
  19. 简单操作破解PDF加密文件
  20. 基于Qt的国旗制作(巴勒斯坦国旗)

热门文章

  1. 新增本地存储功能 山石网科发布下一代防火墙新品
  2. 非纯 []!()输出 始皇帝 推导过程
  3. C# WinForm关闭窗体确认
  4. PHP页面跳转几种实现方法
  5. 小男孩与苹果树(翻译)(06年10月)
  6. 骑马与砍杀服务器修复,骑马与砍杀修复存档损坏的办法
  7. mysql 建模教程 pdf,PowerDesigner 15 系统分析与建模实战 PDF扫描版[50MB]
  8. mysql查看现在使用的引擎_如何查看MySQL的当前存储引擎?
  9. php curl加密获取数据,PHP利用Curl模拟登录并获取数据例子
  10. java 回溯_java 实现迷宫回溯算法示例详解