文字检测与识别项目整理
一、文字检测
(1)方法
方法主要是基于EAST和Refinenet进行的。首先,图像经过Resnet50得到不同层的特征,然后通过Refinet的特征融合方式融合多层特征,接着,经过多任务回归预测每个特征图上的点的分数和RBOX,最后,在多尺寸检测算法里加了过滤机制。
方法流程图如下:
(2)涉及到的点
1.EAST
A.网络结构图
B.PVANet和C.Relu
C.Resnet50
残差网络详细原理见:https://www.jianshu.com/p/e58437f39f65 和 https://my.oschina.net/u/876354/blog/1622896
D.Loss
交叉熵损失方面的原理可参考:https://blog.csdn.net/u014313009/article/details/51043064和 https://blog.csdn.net/chaipp0607/article/details/73392175
E.说明
EAST是一个单阶段的快速而精准的场景文字检测框架。它主要利用一个全卷积模型来产生单词或者文本线级别的密集预测,相比于以前的复杂场景文字检测算法减少了许多冗余操作。对于文本的预测结果,既可以是旋转的矩形表示,也可以是任意的四边型表示,最后再经过非极大值抑制(NMS)的处理然后输出结果。整个框架主要借鉴DenseBox的网络框架,把图片输入全卷积网络当中,然后对文本区域进行多通道的像素级别的预测。其中一个通道用来输出文本的置信分数,而另外的通道则用来输出文本的几何坐标信息。
网络基础结构如图所示,首先,图像经过多层的全卷积网络(如左边黄色区域所示),即基础网络,得到不同深度的卷积特征();接着,通过反卷积(unpool)、不同的卷积、合并等操作,多层的卷积特征融合成在一起();最后,网络根据任务的不同,输出对像素点文本概率置信度的预测以及文本边框的预测。
参考:https://www.cnblogs.com/lillylin/p/6207119.html
B.百度-西交大大数据竞赛:商家招牌的分类与检测。http://dianshi.baidu.com/gemstone/competitions/detail?raceId=17%20
分类:共100类,每类10-30张训练数据,5-10张测试数据,训练数据2725张,测试数据1000张
B.分类用Resnet152,增加高斯模糊、旋转、缩放、翻转、裁剪、灰度和彩色进行投票。
A.f值=0.695,acc=0.75,recall=0.647
参考:https://blog.csdn.net/qq_34564947/article/details/77200104
1.单阶段速度快,训练慢,效果没双阶段好,原因可能是样本不平衡。
2.改进的模型不要在原来的基础上继续训练,要在最初的基础上重新训练,因为学习率可能会衰减到没有改进的空间。
B.采用两个模型进行加权,一个是正常数据,一个是过采样的数据
算法 | recall | precision | f-measure |
EAST | 0.735 | 0.836 | 0.78 |
+resnet | 0.749 | 0.841 | 0.792 |
+Focal loss | 0.778 | 0.861 | 0.817 |
+refinenet | 0.762 | 0.885 | 0.819 |
f*2 | 0.779 | 0.878 | 0.826 |
转载于:https://www.cnblogs.com/EstherLjy/p/9278314.html
文字检测与识别项目整理相关推荐
- 文字检测与识别资料整理
博主关注文字检测和识别,资料整理和论文解读都非常详细: https://www.cnblogs.com/lillylin/p/6893500.html#4033329 博主的阅读习惯,积累和输出输出: ...
- 【项目实践】中英文文字检测与识别项目(CTPN+CRNN+CTC Loss原理讲解)
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:opencv学堂 OCR--简介 文字识别也是图像领域一 ...
- 金连文:“文字检测与识别:现状及展望” | CAAI AIDL 演讲实录
点击我爱计算机视觉标星,更快获取CVML新技术 CAAI原创 丨 作者金连文 转自中国人工智能学会,52CV获得金老师授权转载,严禁二次转载. 8月31日-9月1日,由中国人工智能学会主办,华中科技大 ...
- 百度人脸检测与识别项目资源
百度人脸检测与识别项目资源 https://blog.csdn.net/PaddlePaddle/article/details/104386123?depth_1-utm_source=distri ...
- 基于YOLOv3 与CRNN的中文自然场景文字检测与识别
(欢迎关注"我爱计算机视觉"公众号,一个有价值有深度的公众号~) 52CV君曾经分享过多篇关于文字检测与识别的文章: 华科白翔老师团队ECCV2018 OCR论文:Mask Tex ...
- OpenCV 文字检测与识别模块
OpenCV 文字检测与识别模块 该模块在扩展模块中,需自行下载 下载地址:https://github.com/opencv/opencv_contrib/tree/4.0.0 说明文档: 文字检测 ...
- 中文文字检测及识别(ORC)
中文文字检测及识别(ORC) https://github.com/471417367/chinese_ocr_api 首先基于CTPN检测到文字(可以是中英文以及数字),然后基于RCNN进行文字识别 ...
- 基础 | OCR文字检测与识别
作者|Gidi Shperber 编译|AI公园 导读 OCR中的研究,工具和挑战,都在这儿了. 介绍 我喜欢OCR(光学字符识别).对我来说,它代表了数据科学,尤其是计算机视觉的真正挑战.这是一 ...
- 文字检测与识别1-MSER
导语 文字识别在现实场景中的用途非常广泛,现在已经有很多公司将这项技术用于实际中.比如车牌识别,图片转换成文档,拍照搜题,拍照翻译等.这让很多人有了错觉,感觉文字识别的技术已经炉火纯青,可以广泛应用. ...
最新文章
- C++ Priemer目录索引
- java有关问题,java经典有关问题!
- Sun公司网站上的Swing实例,想学Swing的不看后悔
- 符号库匹配不对的原因_整理了几种离合器打滑的原因,再安装调试时可别弄错了...
- 中国互联网公司员工平均年龄出炉,你怎么看?我躺着看
- [转载] python数字类型(一)
- 2021CSP复赛学生家长备忘
- java 量化指标_SAR指标配合阶段高低价的量化交易策略
- 工信部发布八项互联网新通用顶级域名服务技术要求
- 关于把数据库放在阿里云上,实现共享
- 通过瑞利判据对显微镜物镜进行分辨率研究
- 滴滴夜莺发布v3.3.0版本
- 统统卸载!再见了,流氓顽固软件!
- 深度强化学习落地方法论(7)——训练篇
- 马尔可夫链及其平稳状态
- 2020亚洲品牌500强榜单发布 ;肯德基中国门店将限时发售植物肉汉堡 | 美通企业日报...
- 洛谷 P1914 小书童——凯撒密码
- 如何将统一参考文献的格式?
- 解决DBConCurrencyException并发冲突异常(收藏)
- 随印自助打印机,微信文档文件校园共享无人自助打印方案
热门文章
- 苹果平板做ppt方便吗_有没有苹果手机和安卓平板之间方便复制粘贴的工具啊?...
- 爬虫入门-爬取有道在线翻译结果(2)
- 迷途中的融担:在下沉与专注中寻找未来
- 神经网络加深和加宽的影响
- 新版仿58转转闲鱼网站源码+二手商品交易平台系统
- 报错(SQLite 3.8.3 or later is required (found 3.7.17).)的解决办法
- GIN 3-封装数据库
- 2020年网络搭建与应用——国赛samba答案
- 各种小芯片Chiplet的机遇
- 3年收10亿,普陀山悄悄改名重启IPO 1