转自AI Studio，原文链接：【PaddlePaddle+OpenVINO】打造一个会发声的电表检测识别器 - 飞桨AI Studio

0 背景：PaddleOCR的电表识别任务（主线之六）

我国电力行业发展迅速，电表作为测电设备经历了普通电表、预付费电表和智能电表三个阶段的发展，虽然智能电表具有通信功能，但一方面环境和设备使得智能电表具有不稳定性，另一方面非智能电表仍然无法实现自动采集，人工抄表有时往往不可取代。采集到的大量电表图片如果能够借助人工智能技术批量检测和识别，将会大幅提升效率和精度。

在本系列项目中，我们使用Paddle工具库实现一个OCR垂类场景。在前置项目中，我们已经能基本跑出一个“看起来还行”的电表读数和编号检测模型，并实现了OpenVINO运行时环境下的部署。

不过，部署项目时想必读者们也发现了，实时检测往往只是“看起来”很美——尤其是用手持设备、非固定式地进行巡检时，由于角度不同、光线差异等等原因，并不是每一帧的识别效果都让人满意……

要不，设置个按钮，让抄表员在截取到满意的效果时保存起来？看起来真是个好主意，那么，截图以后还要抄表员再肉眼复核一遍？似乎有点麻烦。

于是，在本项目中，我们将跑通一个基于Openvino一键截取检测图片，并语音报送电表检测识别结果的流程。

0.1 环境说明

由于OpenVINO运行时环境限制，本文的运行环境与前一篇文章【PaddlePaddle+OpenVINO】电表检测识别模型的部署相同，依然需要在本地跑通部署和应用流程。相关OpenVINO部署实践参考资料请参考：

运行时安装教程
OpenVINO官网
OpenVINO介绍
基于Paddle和OpenVINO的实践
OpenVINO notebook示例教程

0.2 电表检测识别前置系列项目

（主线篇）

PPOCR：多类别电表读数识别
PPOCR：使用TextRender进行电表编号识别的finetune
数据标注懒人包：PPOCRLabel极速增强版——以电表识别为例（二）
【PaddlePaddle+OpenVINO】电表检测识别模型的部署
电表读数识别：数据集补充解决方案对比（TextRender和StyleText）

（番外篇）

PPOCR+PPDET电表读数和编号检测

0.3 模型训练

该过程在下列前置项目中进行了详细的说明，为节省篇幅，此处不再赘述。

PPOCR：多类别电表读数识别
PPOCR：使用TextRender进行电表编号识别的finetune

1 环境准备

1.1 PaddleHub语音模型介绍

在本项目中，建议使用最新版本的PaddleHub，提供了更多的语音类预训练模型。

In [2]

!pip install paddlehub==2.2.0 -i https://mirror.baidu.com/pypi/simple

语音类（15个）

ASR语音识别算法，多种算法可选
语音识别效果如下:

Input Audio	Recognition Result
	I knocked at the door on the ancient side of the building.
	我认为跑步最重要的就是给我带来了身体健康。

TTS语音合成算法，多种算法可选
输入：Life was like a box of chocolates, you never know what you're gonna get.
合成效果如下:

deepvoice3	fastspeech	transformer

需要说明的是，尽管最新的语音类预训练模型大部分由PaddleSpeech提供，但是本项目需要用到中文语音合成，可选模型只有FastSpeech2，而它其实是Parakeet训练的（Parakeet后来合并到了PaddleSpeech中）。

module	网络	数据集	简介
transformer_tts_ljspeech	Transformer	LJSpeech-1.1	英文语音合成
fastspeech_ljspeech	FastSpeech	LJSpeech-1.1	英文语音合成
fastspeech2_baker	FastSpeech2	Chinese Standard Mandarin Speech Copus	中文语音合成
fastspeech2_ljspeech	FastSpeech2	LJSpeech-1.1	英文语音合成
deepvoice3_ljspeech	DeepVoice3	LJSpeech-1.1	英文语音合成

由于预训练模型文件较大、下载时间长，这里建议读者在本地部署项目时，先把预训练模型安装好。不过，正如前面说到的FastSpeech2基于Parakeet训练，安装时还会自动拉取Parakeet作为依赖，而链接是在github上。由于网速原因，会出现类似下面的情况：

Installing dependent packages from /home/aistudio/.paddlehub/tmp/tmpd42h5sba/fastspeech2_baker/requirements.txt: -

也就是说，安装进度因为访问github的网速过慢，一直卡着。这里，给出一个比较快的解决方案：直接先手动安装Parakeet!

1.2 Parakeet安装

注意事项1：我们需要去拉取的，是Parakeet停止更新前最后的一个分支（gitee镜像是旧的！要么自己拉个镜像，要么直接用本项目openvino-deploy.zip压缩包中提供的Parakeet）。

In [7]

!unzip openvino-deploy.zip

In [8]

%cd openvino-deploy/Parakeet

/home/aistudio/openvino-deploy/Parakeet

不过，在真正安装Parakeet前，我们要先修改下源代码中的一个关键bug：将文件Parakeet/parakeet/frontend/zh_frontend.py
第55行的with open(phone_vocab_path, 'rt') as f:修改为 with open(phone_vocab_path, 'rt', encoding='utf-8') as f:

否则，在处理中文文本转语音的过程中，会出现字符集不匹配的报错问题。

注意事项2：因为Parakeet的依赖中包括有pyworld，需要在VC++2014以上的环境中使用，所以，如果是Windows端，比较一劳永逸的办法是去安装个最新版的Visual Studio，这样就不容易遇到环境缺失问题了。

In [10]

# 安装parakeet
!pip install -e .

1.3 FastSpeech2预训练模型安装

装完Parakeet之后，如果想直接安装fastspeech2_baker，说不定还会卡在这个地方：

[nltk_data] Error loading averaged_perceptron_tagger: [Errno 110]
[nltk_data]     Connection timed out

这是因为出现了nltk.download()网络不通的问题，解决办法就是直接去下载并解压相关文件。

In [14]

# nltk_data的国内镜像，很多开发者都同步过，随便找一个就行
!git clone https://gitee.com/eurake/nltk_data.git

正克隆到 'nltk_data'...
remote: Enumerating objects: 1606, done.
remote: Total 1606 (delta 0), reused 0 (delta 0), pack-reused 1606
接收对象中: 100% (1606/1606), 928.43 MiB | 47.00 MiB/s, 完成.
处理 delta 中: 100% (852/852), 完成.
检查连接... 完成。
正在检出文件: 100% (240/240), 完成.

In [17]

!mv nltk_data/packages ~/nltk_data

然后参考nltk_data手动安装这个链接，将nltk_data整个目录放到任意一个nltk的hook路径下即可。

In [18]

import nltk
nltk.download("punkt")
nltk.download("cmudict")

[nltk_data] Downloading package punkt to /home/aistudio/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package cmudict to /home/aistudio/nltk_data...
[nltk_data]   Package cmudict is already up-to-date!

True

在完成了上面的准备工作之后，我们终于可以安装FastSpeech2预训练模型了。而且，关于电表语音播报检测器的实现，只剩几步之遥了。

没错！和绝大多数部署项目类似，本项目最大的难关就是环境的准备，过了这道坎，后面其实是一马平川了。

In [2]

# 安装FastSpeech2预训练模型
!hub install fastspeech2_baker

2 重新整理openvino notebook的demo目录

在前一篇文章【PaddlePaddle+OpenVINO】电表检测识别模型的部署中，主要是基于OpenVINO官方提供的notebook版进行开发，部分import依赖于整个openvino_notebooks项目，耦合度较高。

因此，在本项目中，我们对之前的项目进行了解耦，将相关函数调用独立出来，放到了openvino-deploy.zip，读者在安装好需要的依赖后，将可以直接使用。

In [17]

!mv Parakeet ./openvino-deploy/Parakeet

In [14]

%cd ~

/home/aistudio

In [16]

!tree ./openvino-deploy

./openvino-deploy
├── async_pipeline.py
├── data
│   ├── SVID_20220411_003747_1.mp4
│   └── test.mp4
├── demo_vino.py
├── model
│   ├── det_finetune
│   │   ├── inference.pdiparams
│   │   ├── inference.pdiparams.info
│   │   └── inference.pdmodel
│   └── rec_finetune
│       ├── inference.pdiparams
│       ├── inference.pdiparams.info
│       └── inference.pdmodel
├── models
│   ├── custom_segmentation.py
│   ├── __init__.py
│   ├── model.py
│   └── __pycache__
│       ├── __init__.cpython-37.pyc
│       └── model.cpython-37.pyc
├── notebook_utils.py
├── ppocr_keys_v1.txt
├── pre_post_processing.py
├── __pycache__
│   ├── async_pipeline.cpython-37.pyc
│   ├── draw_ocr.cpython-37.pyc
│   ├── notebook_utils.cpython-37.pyc
│   └── pre_post_processing.cpython-37.pyc
├── requirements.txt
├── test.jpg
└── wavs└── 1.wav8 directories, 25 files

2.1 核心代码解读：`demo_vino.py`

该文件是预测脚本的入口，除了将PaddleOCR模型在内存中转为OpenVINO外，还要将文本转语音tts的初始化过程提前，而不是到了要进行预测时才初始化，这样会造成严重卡顿。

demo_vino.py的最后三行代码如下：

# 初始化tts
tts = hub.Module(name='fastspeech2_baker', version='1.0.0')
# 视频流文件
video_file = "./data/SVID_20220411_003747_1.mp4"
# 启动视频流文件电表读数编号的实时检测
run_paddle_ocr(source=video_file, flip=False, use_popup=True, tts=tts)
# 调用摄像头进行电表读数编号的实时检测
# run_paddle_ocr(source=0, flip=False, use_popup=True, tts=tts)

相比之前的OpenVINO部署项目，调用并合成语音文件的逻辑主要在run_paddle_ocr()中实现，主要改动部分从代码的340行看起。

if rec_res != []:image = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))boxes = dt_boxes# 只对置信度高于0.5的识别文本进行语音播报txts = [rec_res[i][0] for i in range(len(rec_res)) if rec_res[i][1]>0.5] scores = [rec_res[i][1] for i in range(len(rec_res))] # 生成原图和识别结果对比图，分两栏左右并排显示draw_img = processing.draw_ocr_box_txt(image,boxes,txts,scores,drop_score=0.5)# 可视化OCR识别结果_, f_width = draw_img.shape[:2]fps = 1000 / processing_time_detcv2.putText(img=draw_img, text=f"OpenVINO Inference time: {processing_time_det:.1f}ms ({fps:.1f} FPS)", org=(20, 40),fontFace=cv2.FONT_HERSHEY_COMPLEX, fontScale=f_width / 1000,color=(0, 0, 255), thickness=1, lineType=cv2.LINE_AA)# use this workaround if there is flickeringif use_popup: draw_img = cv2.cvtColor(draw_img, cv2.COLOR_RGB2BGR)cv2.imshow(winname=title, mat=draw_img)key = cv2.waitKey(1)if key == 32:cv2.imwrite('test.jpg', draw_img)for i in range(len(txts)):if len(txts[i])>8:txts[i] = '电表编号是' + str(txts[i])else:txts[i] = '电表读数是' + str(txts[i])print(txts)if len(txts) > 0:# 英文模型：'fastspeech2_ljspeech'，中文：fastspeech2_bakertts.generate(txts) # 中英文要一致# 使用playsound播报识别结果，会有略微卡顿for i in range(len(txts)):playsound('./wavs/%s.wav', str(i+1))# escape = 27，按ESC键退出if key == 27:cv2.destroyAllWindows()breakelse:# encode numpy array to jpgdraw_img = cv2.cvtColor(draw_img, cv2.COLOR_RGB2BGR)_, encoded_img = cv2.imencode(ext=".jpg", img=draw_img,params=[cv2.IMWRITE_JPEG_QUALITY, 100])# create IPython imagei = display.Image(data=encoded_img)# display the image in this notebookdisplay.clear_output(wait=True)display.display(i)

2.2 语音播报流程实现

在上面的代码中，主要是先通过paddlehub生成wav文件，再python播放声音文件（mp3、wav、m4a等）的第三方工具库playsound，遍历生成的wav文件并播放。

playsound module是一个可以跨平台使用的库，不需要其他依赖的库，直接利用pip或者IDE的库管理功能安装就行。

from playsound import playsoundplaysound('wavs/1.wav')

3 电表检测识别播报效果

In [18]

%cd openvino-deploy

/home/aistudio/openvino-deploy

In [24]

# 该代码须在本地运行
!python demo_vino.py

(paddle) C:\MachineLearning\openvino-deploy>python demo_vino.py
C:\Users\noname\.conda\envs\paddle\lib\site-packages\paddle\framework\io.py:415: DeprecationWarning: Using or importing the ABCs from 'collections' instead of from 'collections.abc' is deprecated since Python 3.3,and in 3.9 it will stop workingif isinstance(obj, collections.Iterable) and not isinstance(obj, (
[2022-05-03 19:29:20,808] [    INFO] - Load fastspeech2 params from C:\Users\noname\.paddlehub\modules\fastspeech2_baker\assets\fastspeech2_nosil_baker_ckpt_0.4\snapshot_iter_76000.pdz
[2022-05-03 19:29:21,320] [    INFO] - Load vocoder params from C:\Users\noname\.paddlehub\modules\fastspeech2_baker\assets\pwg_baker_ckpt_0.4\pwg_snapshot_iter_400000.pdz
[2022-05-03 19:30:10] [DEBUG] [__init__.py:166] Prefix dict has been built successfully.
[2022-05-03 19:30:16,205] [    INFO] - 1 wave files have been generated in C:\MachineLearning\openvino-deploy\wavs
['电表读数是022809']
[2022-05-03 19:30:24,352] [    INFO] - 1 wave files have been generated in C:\MachineLearning\openvino-deploy\wavs
Source ended
[2022-05-03 19:30:58] [DEBUG] [__init__.py:166] Prefix dict has been built successfully.[2022-05-03 19:31:04,633] [    INFO] - 1 wave files have been generated in C:\MachineLearning\openvino-deploy\wavs
Source ended

读者可以在电表读数识别正确时按下空格键截图并生成语音文件，下图为保存的图片效果：

合成的语音播报效果如下： “电表读数是002809”

In [31]

import IPython
IPython.display.Audio('./wavs/1.wav')

<IPython.lib.display.Audio object>

4 小结

本文使用OpenVINO™实现了电表检测识别模型的跨平台运行，并且结合PaddleHub提供的语音合成预训练模型，完成了近实时的识别音频文件生成。

本地部署效果显示，电表检测模型速度在6FPS左右，每条播报语音生成时间在8s左右，对于仪器仪表检测等时延相对不太敏感的工业场景，还是有一定的实用价值的。

在后续项目中，还将主要围绕以下几个方面对该场景进行优化和挖掘：

优化前端界面，支持鼠标点击截图和音频生成
将离线保存wav文件并读取播报的方式，转换为实时在线语音播报
优化部署性能、丰富部署方式，进一步降低预测时延
进一步降低电表检测识别模型错误率，提高用户截图操作效率
扩展应用场景，结合PaddleOCR制作AI“点读机”

——尤其最后一点，个人认为推广开来，还是非常有价值的：比如工业质检的场景，让机器实时播报检测到的异常，更进一步地压缩人工干预的处理时间；或者仪表读数的场景，设想下，鼠标一点，依靠每台设备前方部署的摄像头，通知中控室，某某设备当前读数如何如何，是否处于正常区间……

仿佛看到前方大坑无数……

【PaddlePaddle+OpenVINO】打造一个会发声的电表检测识别器相关推荐

【PaddlePaddle+OpenVINO】打造一个指哪读哪的AI“点读机”
转自AI Studio,原文链接:[PaddlePaddle+OpenVINO]打造一个指哪读哪的AI"点读机" - 飞桨AI Studio 0 背景介绍现下,随着各种流行APP ...
电表检测部署应用：手把手教你把PPOCRLabel改成想要的模样
0 项目背景在之前的电表系列项目开展过程中,用户提出了这样一个需求: 给一批图片,希望有一个前端操作界面,应用训练的电表检测识别模型,实现批量预测待识别图片,并将识别后的电表编号.电表读数.文件名匹 ...
基于PP-OCRv3的电表检测识别
基于PP-OCRv3的电表检测识别本案例将使用OCR技术自动识别电表读数与电表编号,攻克表计图片"识别不到"与"识别不准"的难题,通过本章您可以掌握: Pad ...
FastDeploy：电表检测模型在安卓设备的部署
项目背景如何在各种异构设备上部署深度学习模型?这个灵魂拷问往往是很多深度学习模型落地的拦路虎.因为部署这事实在有点复杂,一会儿是环境不匹配,要重新编译:一会儿是算子不支持,要重写算子-- 唉我们不就 ...
【PaddlePaddle+OpenVINO】电表检测识别模型的部署
转自AI Studio,原文链接:[PaddlePaddle+OpenVINO]电表检测识别模型的部署 - 飞桨AI Studio 0 背景:PaddleOCR的电表识别任务(主线之五) 我国电力行业 ...
手把手教你快速打造一个AI识物点读机
0 项目背景 "六·一"儿童节到了,献上一个识物读英文的AI点读机作为一个节日礼物. 在完成前面几个"点读"相关项目后,我们会发现,其实从pipeline上看, ...
赠书 | 手把手教你自己动手打造一个智能恒温器
作者 | Yazeed Sabri 翻译 | 火火酱,责编 | 晋兆雨出品 | AI科技大本营头图 | 付费下载于视觉中国 *文末有赠书福利为了能住得离公司近一点,我就搬进了一套没有温控系统的公 ...
打造一个TB级微服务日志监控平台
本文主要介绍怎么使用 ELK Stack 帮助我们打造一个支撑起日产 TB 级的日志监控系统.在企业级的微服务环境中,跑着成百上千个服务都算是比较小的规模了.在生产环境上,日志扮演着很重要的角色,排查 ...
如何打造一个经常宕机的业务系统？
作者| Mr.K 整理| Emma 来源| 技术领导力(ID:jishulingdaoli) 删库跑路专家.宕机行为艺术家.肥胖版吴彦祖--老K,曾经说过:"打造一个偶尔宕机的系统并不难 ...

【PaddlePaddle+OpenVINO】打造一个会发声的电表检测识别器

0 背景：PaddleOCR的电表识别任务（主线之六）

0.1 环境说明

0.2 电表检测识别前置系列项目

0.3 模型训练

1 环境准备

1.1 PaddleHub语音模型介绍

语音类（15个）

1.2 Parakeet安装

1.3 FastSpeech2预训练模型安装

2 重新整理openvino notebook的demo目录

2.1 核心代码解读：`demo_vino.py`

2.2 语音播报流程实现

3 电表检测识别播报效果

4 小结

【PaddlePaddle+OpenVINO】打造一个会发声的电表检测识别器相关推荐

最新文章

热门文章

【PaddlePaddle+OpenVINO】打造一个会发声的电表检测识别器

0 背景：PaddleOCR的电表识别任务（主线之六）

0.1 环境说明

0.2 电表检测识别前置系列项目

0.3 模型训练

1 环境准备

1.1 PaddleHub语音模型介绍

语音类（15个）

1.2 Parakeet安装

1.3 FastSpeech2预训练模型安装

2 重新整理openvino notebook的demo目录

2.1 核心代码解读：demo_vino.py

2.2 语音播报流程实现

3 电表检测识别播报效果

4 小结

【PaddlePaddle+OpenVINO】打造一个会发声的电表检测识别器相关推荐

最新文章

热门文章

2.1 核心代码解读：`demo_vino.py`