原文链接:Research on Extraction and Translation of English Public Signs in Tourist Attractions Based on Machine Vision | IEEE Conference Publication | IEEE Xplore

《基于机器视觉的旅游景点英语公共标志提取与翻译研究》论文笔记

旅游景点有许多英文公共标志。使用数字成像技术和计算机技术来提取和翻译这些英语公共语言,有助于游客了解或警告周围环境。本研究构建了基于机器视觉技术和卷积神经网络(CNN)的识别系统,用于提取、识别和翻译英语公共标志。结果表明,该系统的平均识别准确率为98%;翻译的平均准确率为96.5%。以上结果表明,识别系统能够有效提取和翻译英文公共标志,有助于游客了解景区传达的信息。

第一节.介绍

旅游景点的公共标志可以为游客提供有效的信息,起到引导或警示游客的作用[1]。然而,旅游景点的公告中有相当一部分是英文的,这不利于游客的身份识别[2]。如今,技术和经济正在迅速发展,每人几乎只有一部智能手机[3]。因此,本研究利用智能手机的摄像功能,基于机器视觉技术和卷积神经网络,构建了旅游景点英语公共标志提取系统,实现了公式标志的提取、识别和翻译。结果表明,该系统能够更准确地提取和翻译英文公共标志,帮助游客更好地享受旅游的乐趣。

第二节.建设英语公共标志提取和翻译系统

A.景区英文公共标志的提取

写作是最常见的信息传播手段之一。旅游景点的公共标志可以引导道路或警告游客[4]。然而,许多景区的公共标志都是英文的,一些游客很难理解其含义[5]。随着科技的飞速发展,生活质量也得到了很大的提高,许多智能设备也开始流行起来,比如手机和笔记本电脑。通过使用智能设备的高清摄像头,可以实现英语公共标志的图像采集,然后可以相应地处理图像中的公共标志。SVM算法具有稀疏性和稳定性的优点,可以根据方法对非线性对象进行分类。因此,使用经过训练的SVM算法来检测前端设备收集的图像是否包含英文符号。投影法用于分割图像中的文本,因此,使用训练的支持向量计算法来识别和提取英语公共符号[6]。公共标志通常具有相同的笔触宽度。因此,通过计算笔画宽度,可以有效地提取文本信息,例如公式(1)。

dq=−dp±π/6 (1)

在式(1)中,dp表示边缘像素 p 的方向梯度值;d_{q} 表示像素点 q 从点 p 沿 d p 开始的方向梯度值。如果有像素满足公式 (1),则 p 和 q 之间的描边宽度为 \|p-q\|。投影法对图像中的字符进行分割,以方便后续的字符识别和翻译。

B. 基于卷积神经网络的英语公共符号识别

卷积神经网络是最常见的深度学习算法之一,已广泛应用于各个领域[7-8]。卷积神经网络是基于BP神经网络的改进。与BP神经网络相比,卷积神经网络可以使用卷积核进行特征提取,因此识别率和准确率更高[9]。卷积神经网络的拓扑结构分为卷积层、全连接层和输出层[10]。卷积神经网络的拓扑结构如图1所示。

图 1卷积神经网络的拓扑结构

其中,卷积层由N个卷积核组成,每个卷积核可以识别一个英文公共符号的局部特征,并执行卷积运算。全连接层使用卷积核执行全连接运算,提取旅游景点中英文公共标志的全局特征,并对全局特征进行分类。在输出层,根据误差输出函数计算误差,并进行反向网络权重和偏置更新。使用Dropout功能对网络权重和偏置进行部分更新,可以有效防止过拟合的发生。全连接层的输出值可以表示为函数(2)。

在函数 (2) 中,\hat{c}_{i} 表示某个特征平面的最大值,即与卷积核对应的特征。通过输入足够的英文数据来训练卷积网络,可以实现景区英语公共标志的分类和识别。根据以上内容,可以完成英文公共标志的提取和翻译系统的构建,如图2所示。

图2 英语公共标志提取和翻译系统的结构

该系统的建设可以有效帮助游客正确识别公共标志的信息,改善出行体验。系统步骤如下:通过智能设备的高清摄像头获取英文公共标志的图像;支持向量算法用于检测图像是否包含英文公共标志;然后,通过投影方法对图像中的文本进行分割,提取的文本被CNN识别,并在设备的翻译软件的帮助下进行翻译。

第三节.公共标志提取与翻译系统性能研究

A. 图像中文本分割的性能分析

对图像中的文本进行分割后,可以提高卷积网络的识别精度。为了验证公共标志提取和翻译系统对图像中文本的分割性能,对景区的公共标志图像进行二值化,然后添加水平投影像素值,并采用投影方法对图像的水平方向进行分割,如图3所示。

图3 图像中文本分割的性能分析

从图3可以看出,在景区的公共标志图像上进行水平投影实验后,图像分割效果与原始图像基本相同。以上结果表明,采用投影方法后,系统能够有效地分割图像中的文本,便于后续的文本识别和翻译。

B. 系统字符识别与翻译性能研究

为了验证旅游景点英语公共标志提取和翻译系统的字符识别和翻译性能,为英语单词词库中每个单词的每个字体生成一个图片数据,并随机选择1000个样本数据集,其中500个样本集用于训练系统,其余500个样本集用于测试训练系统。试验分为5次,每次100个样本。记录和分析旅游景点英语公共标志提取翻译系统的识别准确度和翻译准确性,如图4所示。

图4  英语公共标志系统的识别准确度和翻译准确度

从图4可以看出,在五次测试中,系统的识别准确率至少为96%,最高为100%,平均为98%;系统的翻译准确率平均为96.5%。将此算法的识别效果与传统的文本提取和识别算法(如CTPN,SSTD和端到端)进行比较。比较结果示于表1中。

表 1 本文算法的识别效果

从表1可以看出,本文算法的精度、召回率和F得分均优于传统的英文文本提取和识别算法。

第四节.结论

公共标志是旅游景点使用最广泛的信息传播手段。使用智能设备识别和翻译英文公式和表达方式,可以有效提高游客的安全和旅游体验。因此,本研究基于机器视觉技术,利用SVM检测前端设备采集的图像中是否存在英文公共标志,采用投影法对文本进行分割,最后利用CNN对公共标志进行识别和翻译,从而构建一个英文公共标志提取翻译系统。研究结果表明,该系统对英语公共标志的识别准确率达到98%,翻译准确率达到96.5%。以上结果表明,该系统能够有效识别和翻译英文公共标志,改善游客体验,具有较高的实用价值。

《基于机器视觉的旅游景点英语公共标志提取与翻译研究》论文笔记相关推荐

  1. 论文笔记之Understanding and Diagnosing Visual Tracking Systems

    Understanding and Diagnosing Visual Tracking Systems 论文链接:http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到 ...

  2. 《Understanding and Diagnosing Visual Tracking Systems》论文笔记

    本人为目标追踪初入小白,在博客下第一次记录一下自己的论文笔记,如有差错,恳请批评指正!! 论文相关信息:<Understanding and Diagnosing Visual Tracking ...

  3. 论文笔记Understanding and Diagnosing Visual Tracking Systems

    最近在看目标跟踪方面的论文,看到王乃岩博士发的一篇分析跟踪系统的文章,将目标跟踪系统拆分为多个独立的部分进行分析,比较各个部分的效果.本文主要对该论文的重点的一个大致翻译,刚入门,水平有限,如有理解错 ...

  4. 目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems

    Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...

  5. 追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems)

    追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems) PROJECT http://winsty.net/tracker_di ...

  6. ICCV 2015 《Understanding and Diagnosing Visual Tracking Systems》论文笔记

    目录 写在前面 文章大意 一些benchmark 实验 实验设置 基本模型 数据集 实验1 Featrue Extractor 实验2 Observation Model 实验3 Motion Mod ...

  7. Understanding and Diagnosing Visual Tracking Systems

    文章把一个跟踪器分为几个模块,分别为motion model, feature extractor, observation model, model updater, and ensemble po ...

  8. CVPR 2017 SANet:《SANet: Structure-Aware Network for Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做SANet.作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强.作者提出使用RNN对目标物体的self-structure进行建模,用于提 ...

  9. ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做UCT.就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型.模型的整体结构如下图所示(图中实线代表online trackin ...

  10. CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...

最新文章

  1. 使用Python,OpenCV构建透明的叠加层
  2. 挑战者联盟!谁会成为最赚钱的人工智能公司
  3. mysql 1084_[LeetCode]1084. 销售分析III(Mysql,having+聚合函数)
  4. keras从入门到放弃(九) 处理过拟合
  5. 什么是JAX-RS注释? (第2部分)
  6. python语句join_Python中的join()函数的用法
  7. es6笔记 day3---Promise
  8. dorado-初学1
  9. Win10 Explorer v1.3 有趣创意WordPress主题
  10. TensorRT模型转换程序及用法
  11. 使用 Kotlin , Groovy ,Java 开发一个自己的 Gradle 插件
  12. espcms联动筛选功能开发
  13. Linux下C语言开发(多任务编程之任务、进程、线程)
  14. 关于网络直播营销活动监管中的《广告法》
  15. WIN7 旗舰版 万能KEY
  16. 未来在哪里?我是这样看阿里大数据的
  17. linux日志切割命令,linux日志分割、去重、统计
  18. 移动UI设计-表单设计
  19. 这几个方法让你实现EXCEL文件翻译成中文
  20. CY8C5888AXQ-LP096 CY8C5888AXI-LP096,IC MCU 32BIT

热门文章

  1. 菜niao鸟教程C语言100题精选
  2. 一种基于μC/OS-III及STM32的多功能控制器
  3. 327页16万字市智慧人社项目建设方案(word可编辑)
  4. 学习笔记---Git
  5. css设置字体大小等失效
  6. PyTorch深度学习实战 | 迁移学习与自然语言处理实践
  7. java设计模式 通俗解释
  8. 2022最新版网络安全图成长路线图,从零基础到精通
  9. NVIDIA GPU驱动安装
  10. 追梦五年--跑在奔三的路上