文章目录

  • 论文基本信息
  • 摘要
  • 引言
  • 1. 数据集
  • 2. 目标检测算法的选取
  • 3. 实验

论文基本信息

期刊: 厦门大学学报(自然科学版) 、北大核心
IF = 0.77
出版时间:2022年3月

摘要

Step1: 通过多种数据扩增方式(如:人工书写、图像合成、图像裁剪)获得了80个文字别类,共110610个带标签的字符样本;
Step2: 将Faster-RCNN算法应用到水书古籍文字识别中,以上面的样本以不同组合的数据集作为输入进行实验,在全部80个目标类别上获得了91.95%的平均识别率。

引言

介绍了很多目前的水书识别方法,本文主要记录了以下几个自己可能会用到的文献:

方法
1. 杨秀璋等提出了一种改进的图像增强及图 像 识 别 方 法,并将其应用于水书文字图像中,经过灰度转换、中值滤波去噪、直方图均衡化等处理,之后再通过Sobel算子锐化文字边缘,最终提取了水族刺绣图像及建筑图像中的水书文字
2. 翁彧设计了一个轻量级网络结构, 在5万个水书字符型样本上进行了分类实验,得到了93.3%的识别准确率,该研究没有涉及页面的水书文字识别,主要是单个水书文字的分类研究.
3. 赵洪帅等将拉普拉斯金字塔与对抗性神经网络相结合,对水书古籍图像进行数据清晰度处理;再使用基于信息熵的无监督密度聚类算法,研究水书古籍图像文字的自动标注;在6230个水书字符样本上进行实验.其结果表明:拉普拉斯金字塔结构的生成对抗网络对水书文字的图像样本具有更高的分辨 率,且能增加少量的样本,但自动标注方法存在一些问题,即自动标注的准确率不高,影响了水书文字的识别准确率
4. 丁琼提 出 采用YOLO模型对水书文字进行识别检测,经 测 试识别率稳定在98%以上,但其采用的数据样本来源于水书文字和汉字混编的书籍中,并非水书卷本原件图像或影印件图像资料,且未具体介绍所使用的数据集及规模.

1. 数据集

其原始数据集来源于《九星集》等古籍影印卷本。
重要的是数据扩增:
该文对一些样本比较少的生僻字,为提高模型的鲁棒性和扩展能力,通过人工手写、图像合成、图像裁剪 等方式进行数据扩增。
(1)人工方式
对于样本数量低于300个的水书文字类别及逆行人工手写,经过8个笔记不同的志愿者进行手写扩增,得到37个类别的水书文字共12021个字符样本。
(2)图像合成
对样本数量低于500的水书文字类别通过图像合成方式进行扩增。具体做法如下:
Step1: 首先确定该文字通过方向变换不会发生歧义,如:中文中的一、十。
Step2: 对字符切片进行二值化、旋转、翻转、添加噪声等方式;
Step3: 最后,对处理过的图像随机组合,进而合成一张完整的图片。
通过以上方式共获得图片1600张,共计37363个字符样本。
目的: 增加数据量,且包含各种场景、使数据呈现多样性,从而增强模型的泛化能力,防止过拟合。
(3)图像裁剪
对39张人工书写扩增的图像和1734张原始数据图像进行上、下、左、右及中心裁剪,最终获得水书文字图像9053张,共计73247个字符样本

2. 目标检测算法的选取

(1)目标检测算法简介
主要分为"一步检测算法"、“两步检测算法”

一步检测法 两步检测法
在多层特征图上直接抽样并回归,一 步产生物体的类别概率和位置坐标值并输出,检测速度快,典型的有:SSD、YOLO Step1: 首先在特征图上抽样产生密集的候选区域; Step2: 再对候选区域进行分类和回归。 常见的有: RCNN、Fast-RCNN、Faster-RCNN

(2)两步检测算法详细介绍
a. RCNN
Step1: 先用选择性搜索算法在每个网格上依次提取1000-2000个候选区域;
Step2: 再使用卷积神经网络在其中依次提取每一个候选区域的特征;
Step3: 最后用支持向量机来对这些候选区域的数据特征进行综合分类.
优点: 在准确率上有不错的表现;
缺点: 该方法计算量过大,是以大量的资源和运行时长为代价换取准确率的提升
b. Fast-RCNN
Fast-RCNN是RCNN的升级版本。Fast_RCNN在卷积神经网络的最后一层卷积层后增加了ROI池化层,使得网络输入的尺寸可以是任意的(因为池化层课程改变图片的尺寸),并且对每一个图像只进行一次特征提取,大大提高效率。
此外,Fast-RCNN采用Softmax代替支持向量机进行多任务的分类,使得检测效率得到答复提升
但是,该算法依然存在选取候选区域耗时大的问题。
c. Faster-RCNN
Faster-RCNN的的主要特点是改变了候选区域的提取方法,即使用了候选区域网络RPN,使得卷积神经网络直接产生候选区域,而放弃了之前使用的选择性搜索方法。
Faster-RCNN交替训练的方式,可以在大大缩短目标检测耗时的同时,有效提高目标检测的准确率.

(3)一步检测算法详细介绍
a. YOLO
YOLO的训练和检测均在一个单独网络中进行,待检测图像仅需经过一次图像预测,便能得到该预测图像中所有置信目标的类别、位置、相应置信概率,计算速度快且有较高的准确率.
但是,YOLO算法直接将图像分割成若干区域,需要提前设定候选区域。且当多个目标同时落在一个区域时,只会取置信度最高的一类。
因此,YOLO算法对小目标或目标密集的检测精度较差。
b. SSD
该算法结合了Faster-RCNN和YOLO的部分思想,对图像不同位置的多种尺度的区域的不同特征进行回归,对这些特征进行分层提取和分析,并依次进行边框的尺度回归和特征分类等计算操作。最终完成多种不同尺度区域目标的训练、检测任务。
SSD算法在不影响素的同时,提高了目标检测准确率。
但该算法的默认框形状、网格尺寸都是预设的。
因此对小目标的检测效果仍然不够理想。

3. 实验

(1)实验设计
因为采用了3种不同数据扩增方式,故采用了不同组合的数据集进行了消融实验。具体如下:

(2)评价指标
实验结果的评价采用各自收敛轮数的mAP进行比较.mAP用于评价模型的好坏,是目标检测中的重要评估指标,其公式如下:
PmA=∑i=1NPiAN∗100%P_{mA} = { \sum_{i=1}^N P_i^A \over N } * 100\% PmA​=N∑i=1N​PiA​​∗100%
其中,NNN为类别数目,PiAP_i^APiA​ 为第i类的精确度,其计算如下:
PiA=P(i)Δr(i)P_i^A = P(i) \Delta r(i) PiA​=P(i)Δr(i)
其中,P(i)P(i)P(i) 表示第i类的准确率,Δr(i)\Delta r(i)Δr(i)表示第i类的召回率。

(3)实验设计

  1. 实验采用Faster-RCNN模型进行训练和测试;
  2. 使用VGG16作为其框架中提取图像特征的基础网络;
  3. 训练集: 测试集 = 8: 2
  4. 初始学习率 lr = 0.001

(4)实验结果

基于Faster-RCNN的水书古籍手写文字的检测与识别-论文阅读相关推荐

  1. 手写文字识别的使用软件

    手写文字怎么进行识别,手写文字识别用什么软件比较简单?想要将大家手中的手写文字识别有一种比较简单的方法,我们可以使用迅捷PDF在线转换器来操作,下面就是小编为大家介绍的转换过程. 步骤一:先将自己的手 ...

  2. 百度AI攻略:手写文字识别

    1.功能描述: 支持对图片中的手写中文.手写数字进行检测和识别,针对不规则的手写字体进行专项优化,识别准确率可达90%以上 2.平台接入 具体接入方式比较简单,可以参考我的另一个帖子,这里就不重复了: ...

  3. 【笔记】基于Faster R-CNN的除草机器人杂草识别算法

    <基于Faster R-CNN的除草机器人杂草识别算法> 单位:河北科技大学信息科学与工程学院 作者:李春明 数据获取 相机:Intel RealSense Depth CameraD43 ...

  4. 目标检测经典论文——Faster R-CNN论文翻译(纯中文版):Faster R-CNN:通过Region Proposal网络实现实时目标检测

    目标检测经典论文翻译汇总:[翻译汇总] 翻译pdf文件下载:[下载地址] 此版为纯中文版,中英文对照版请稳步:[Faster R-CNN中英文对照版] Faster R-CNN:通过Region Pr ...

  5. 基于深度学习的表面缺陷检测方法综述-论文阅读笔记

    //2022.3.2日阅读笔记 原文链接:基于深度学习的表面缺陷检测方法综述 (aas.net.cn) 个人对本篇综述内容的大致概括 论文首先介绍了表面缺陷检测中不同场景下的成像方案,主要根据表面颜色 ...

  6. 《基于改进YOLOv5的无人机图像检测算法》论文阅读

    原文链接:UAV Recognition and Tracking Method Based on YOLOv5 | IEEE Conference Publication | IEEE Xplore ...

  7. 使用kNN算法实现简单的手写文字识别

    0. 介绍 kNN,即k-Nearest Neighbor(k近邻算法), 简介可参考KNN的一些总结. 本文是<机器学习实战>一书第二章的例子, 主要利用kNN实现简单的手写文字识别. ...

  8. 【python】调用百度智能云API实现手写文字识别

    注:本文系湛江市第十七中学星火创客团队及岭南师范学院物联网俱乐部原创部分参赛项目,转载请保留声明 文章目录 调用百度智能云API实现python识别手写文字 一.准备工具 电脑端准备: 1.pytho ...

  9. 深度学习实战14(进阶版)-手写文字OCR识别,手写笔记也可以识别了

    大家好,我是微学AI,今天给大家带来手写OCR识别的项目.手写的文稿在日常生活中较为常见,比如笔记.会议记录,合同签名.手写书信等,手写体的文字到处都有,所以针对手写体识别也是有较大的需求.目前手写体 ...

最新文章

  1. mysql修复坏表的方法
  2. 【Linux】一步一步学Linux——apropos命令(230)
  3. BIM+GIS应用实战(听课笔记)
  4. loadrunner录制事件为0_测试工具LoadRunner常见问题汇总,解决方案整理
  5. 照片边框 app android,Screener App-一手搞定将手机截图加上外框
  6. 面试:谈谈你对jQuery的理解
  7. 解决异常MySQLNonTransientConnectionException: Communications link failure during rollback().
  8. 02- linux下运行.exe文件(wine工具)
  9. 常用的sql语句整理 增删改查
  10. Max Script|控制器-位置约束_path
  11. Tool-图片压缩-腾讯智图:腾讯智图
  12. 黑马旅游网---day1
  13. ISP封了80和8080端口
  14. 计算机组装专周实训心得,电脑组装实训心得3篇
  15. 日系插画学习笔记(五):日系角色脸部画法-1头部
  16. 一加7使用adb强制90hz时遇到的问题
  17. 如何训练出专属的 OpenAI Five ?
  18. MyEclipse javaw.exe-没有软盘错误
  19. 影像组学ibex_影像组学的基本概念与临床应用
  20. MySQL explain执行计划解读

热门文章

  1. openGL法线贴图和纹理贴图结合使用,以增强三维物体表面细节
  2. LeetCode刷题第七天
  3. 推荐几个统计数据的网站
  4. 在html代码中加广告
  5. C/C++ printf 输入16进制文本数据 多出许多ffffff的问题
  6. 深入理解计算机系统(CSAPP) attack-lab详解
  7. php手机建站,zzzphp免费开源建站系统含手机站
  8. MSP430寄存器的设置与作用
  9. 移植中文TTS(ekho)到ARM linux开发板
  10. visual sourcesafe 的下载,vss2005管理vs2010项目,安装方法,配置及用法教程