文章目录

  • 有了它,实现实时翻译还远吗?
  • 一、还有3秒到达战场
  • 二、效果展示
  • 四、调用API接口的准备工作
  • 五、开发过程详细介绍
    • (一)准备工作
    • (二)开发
      • 1、界面部分
      • 2、音频录制部分的开发
        • (2)record()方法的开发
        • (3)stop_and_recognise()方法的开发
      • 3、实时语音识别部分的开发
  • 五、总结

有了它,实现实时翻译还远吗?

欢迎关注我,一块来履行我之前的承诺连更一个月之内,把几篇写完。

序号 预计完成时间 开发dome名字以及功能&发布文章内容 是否已写完 文章链接
1 9月3 文本翻译,单文本翻译,批量翻译demo。 已完成 CSDN:点我直达
微信公众号:点我直达
2 9月11 OCR-demo,完成批量上传识别;在一个demo中可选择不同类型的OCR识别《包含手写体/印刷体/身份证/表格/整题/名片),然后调用平台能力,具体实现步骤等。 已完成 CSDN:点我直达
微信公众号:
3 10月27 语音识别demo,demo中上传—段视频,并截取视频中短语音识别-demo的一段音频进行短语音识别 CSDN:点我直达
微信公众号:
4 9月17 智能语音评测-demo CSDN:
微信公众号:
5 9月24 作文批改-demo CSDN:
微信公众号:
6 9月30 语音合成-demo CSDN:
微信公众号:
7 10月15 单题拍搜-demo CSDN:
微信公众号:
8 10月20 图片翻译-demo CSDN:
微信公众号:

一、还有3秒到达战场

最近,某水果手机厂在万众期待中开了一场没有发布万众期待的手机产品的发布会,发布了除手机外的其他一些产品,也包括最新的水果14系统。几天后,更新了系统的吃瓜群众经过把玩突然发现新系统里一个超有意思的功能——翻译,比如这种:

奇怪的翻译知识增加了!

相比常见的翻译工具,同声翻译工具更具有实用价值,想想不精通其他语言就能和歪果朋友无障碍交流的场景,真是一件美事,不如自己动手实现个工具备用!一个同声翻译工具,逻辑大概可以是先识别,而后翻译,翻译能否成功,识别的准确率是个关键因素。为了降低难度,我决定分两次完成工具开发。首先来实现试试语音识别的部分。

轻车熟路,本次的demo继续调用有道智云API,实现实时语音识别。

二、效果展示

先看看界面和结果哈:

可以选择多种语音,这里只写了四种常见的:

我分别测试的中文、韩文、英文。看着还不错哦~

这里翻译结果,是根据音频一个字、一个字这样实时识别的,由于识别速度比较快,所以看起来木有时间差。

四、调用API接口的准备工作

首先,是需要在有道智云的个人页面上创建实例、创建应用、绑定应用和实例,获取调用接口用到的应用的id和密钥。具体个人注册的过程和应用创建过程详见文章分享一次批量文件翻译的开发过程

五、开发过程详细介绍

(一)准备工作

下面介绍具体的代码开发过程。

首先是根据实时语音识别文档来分析接口的输入输出。接口设计的目的是对连续音频流的实时识别,转换成文本信息并返对应文字流,因此通信采用websocket,调用过程分为认证、实时通信两阶段。

在认证阶段,需发送以下参数:

参数 类型 必填 说明 示例
appKey String 已申请的应用ID ID
salt String UUID UUID
curtime String 时间戳(秒) TimeStamp
sign String 加密数字签名。 sha256
signType String 数字签名类型 v4
langType String 语言选择,参考支持语言列表 zh-CHS
format String 音频格式,支持wav wav
channel String 声道,支持1(单声道) 1
version String api版本 v1
rate String 采样率 16000

签名sign生成方法如下:
signType=v4;
sign=sha256(应用ID+salt+curtime+应用密钥)。

认证之后,就进入了实时通信阶段,发送音频流,获取识别结果,最后发送结束标志结束通信,这里需要注意的是,发送的音频最好是16bit位深的单声道、16k采样率的清晰的wav音频文件,这里我开发时最开始因为音频录制设备有问题,导致音频效果极差,接口一直返回错误码304(手动捂脸)。

(二)开发

这个demo使用python3开发,包括maindow.py,audioandprocess.py,recobynetease.py三个文件。界面部分,使用python自带的tkinter库,来进行语言选择、录音开始、录音停止并识别的操作。audioandprocess.py实现了录音、音频处理的逻辑,最后通过recobynetease.py中的方法来调用实时语音识别API。

1、界面部分

主要元素:


root=tk.Tk()
root.title("netease youdao translation test")
frm = tk.Frame(root)
frm.grid(padx='80', pady='80')label=tk.Label(frm,text='选择语言类型:')
label.grid(row=0,column=0)
combox=ttk.Combobox(frm,textvariable=tk.StringVar(),width=38)
combox["value"]=lang_type_dict
combox.current(0)
combox.bind("<<ComboboxSelected>>",get_lang_type)
combox.grid(row=0,column=1)btn_start_rec = tk.Button(frm, text='开始录音', command=start_rec)
btn_start_rec.grid(row=2, column=0)lb_Status = tk.Label(frm, text='Ready', anchor='w', fg='green')
lb_Status.grid(row=2,column=1)btn_sure=tk.Button(frm,text="结束并识别",command=get_result)
btn_sure.grid(row=3,column=0)root.mainloop()

选择语言类型之后,开始录音,录音结束后,通过get_result()方法调用接口进行识别。

def get_result():lb_Status['text']='Ready'sr_result=au_model.stop_and_recognise()

2、音频录制部分的开发

音频录制部分引入pyaudio库(需通过pip安装)来调用音频设备并录制接口要求的wav文件,并调用wave库存储音频文件。

Audio_model类的构造:

    def __init__(self, audio_path, language_type,is_recording):self.audio_path = audio_path,                    # 录音存储路径self.audio_file_name=''                          # 录音文件名self.language_type = language_type,             # 录音语言类型self.language_dict=["zh-CHS","en","ja","ko"]   # 支持的语言,用于从UI出的类型转为接口所需类型self.language=''self.is_recording=is_recording                  # 录音状态self.audio_chunk_size=1600                       # 以下为一些接口所要求的录音参数,采样率、编码、通道等self.audio_channels=1self.audio_format=pyaudio.paInt16self.audio_rate=16000

(2)record()方法的开发

record()方法中实现了录音的逻辑,调用pyaudio库,读取音频流,写入文件。

    def record(self,file_name):p=pyaudio.PyAudio()stream=p.open(format=self.audio_format,channels=self.audio_channels,rate=self.audio_rate,input=True,frames_per_buffer=self.audio_chunk_size)wf = wave.open(file_name, 'wb')wf.setnchannels(self.audio_channels)wf.setsampwidth(p.get_sample_size(self.audio_format))wf.setframerate(self.audio_rate)# 读取数据写入文件while self.is_recording:data = stream.read(self.audio_chunk_size)wf.writeframes(data)wf.close()stream.stop_stream()stream.close()p.terminate()

(3)stop_and_recognise()方法的开发

stop_and_recognise()方法将Audio_model的录音状态标记为false,并启动调用有道智云API的方法。

    def stop_and_recognise(self):self.is_recording=Falserecognise(self.audio_file_name,self.language_dict[self.language_type])

3、实时语音识别部分的开发

有道智云实时语音识别接口使用socket通信,为简化展示逻辑,因此在此处发开了展示识别结果的界面,使用tkinter显示:

#输出结果的窗口
root = tk.Tk()
root.title("result")
frm = tk.Frame(root)
frm.grid(padx='80', pady='80')
text_result = tk.Text(frm, width='40', height='20')
text_result.grid(row=0, column=1)

recognise()方法根据接口文档,将所需参数拼接到uri,传给start()方法请求接口:

def recognise(filepath,language_type):print('l:'+language_type)global file_pathfile_path=filepathnonce = str(uuid.uuid1())curtime = str(int(time.time()))signStr = app_key + nonce + curtime + app_secretprint(signStr)sign = encrypt(signStr)uri = "wss://openapi.youdao.com/stream_asropenapi?appKey=" + app_key + "&salt=" + nonce + "&curtime=" + curtime + \"&sign=" + sign + "&version=v1&channel=1&format=wav&signType=v4&rate=16000&langType=" + language_typeprint(uri)start(uri, 1600)

start()方法是实时识别部分的核心方法,通过websocket调用识别接口。

def start(uri):websocket.enableTrace(True)ws = websocket.WebSocketApp(uri,on_message=on_message,on_error=on_error,on_close=on_close)ws.on_open = on_opendws.run_forever()

在请求接口时,首先读取先前录制的音频文件,并发送:

def on_open(ws):count = 0file_object = open(file_path, 'rb')  #打开录制的音频while True:chunk_data = file_object.read(1600)ws.send(chunk_data, websocket.ABNF.OPCODE_BINARY)  #发送time.sleep(0.05)count = count + 1if not chunk_data:breakprint(count)ws.send('{\"end\": \"true\"}', websocket.ABNF.OPCODE_BINARY)

而后在通信过程中处理接口返回的消息,收集接口返回的识别结果:

def on_message(ws, message):result=json.loads(message)resultmessage= result['result']  #解析调用接口的返回结果if resultmessage:resultmessage1 = result['result'][0]resultmessage2 = resultmessage1["st"]['sentence']print(resultmessage2)#text_result.insert(tk.END, resultmessage2+'\n')result_arr.append(resultmessage2)

最后在通信结束后展示识别结果:

def on_close(ws):print_resule(result_arr)print("### closed ###")def print_resule(arr):text_result.delete('1.0',tk.END)for n in arr:text_result.insert("insert", n + '\n')

五、总结

有道智云提供的接口一如既往的好用,这次开发主要的精力全都浪费在了由于我自己录制的音频质量差而识别失败的问题上,音频质量ok后,识别结果准确无误,下一步就是拿去翻译了,有了有道智云API,实现实时翻译也可以如此简单!

关注我微信公众号第一时间推送给你哦:

回复菜单,更有好礼,惊喜在等着你。

欢迎扫码加入我创建的社区群哦,可以与我更进一步的交流,群里还有很多大佬等着你,一起玩耍,一起进步!!!

沃德天,Python竟然还能做实时翻译相关推荐

  1. 666,Python竟然还可以计算农历!

    最近处理工作任务的时候遇到了转换农历的问题.一开始我打算搜索在线处理的网站或者转换的接口,结果找到了一个Python库可以直接解决,今天正好同大家分享一下. 农历,是我国现行的传统历法.它是根据月相的 ...

  2. 污力滔滔的香蕉先生,竟然还可以用来做这种事丨钛空舱

    关注"潜在价值",最好的技术商业媒体,了解那些智慧商业 本文由潜在价值旗下 创意产品推荐平台"钛空舱"推出 钛空(ID:TiKong-life) 一个关注于科技 ...

  3. 三行代码把女朋友照片变成了素描图片!Python竟然还能这样

    我们知道图片除了最普通的彩色图,还有很多类型,比如素描,卡通,黑白等等,今天就介绍如何使用python和opencv来实现图片变素描图. 首先将彩色图转换成灰度图: 对灰度图进行求其反色的操作: 对第 ...

  4. 国产AI作画神器火了,更懂中文,竟然还能做周边!

    金磊 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 家人们,听说了吗? 最近在"一句话生成画作"这个圈子里,又一个AI工具悄然火起来了. 不是你以为的Disco Diffu ...

  5. Python Django 基于 Redis做实时排行榜和排名

    目录 安装 django-redis 配置项目的 settings.py 文件 对 model 进行处理 使用 signals 的 pre_save 自动同步数据 使用 redis 的函数添加和获取数 ...

  6. python 编写有道词典实时翻译

    import urllib.request import urllib.parse import json line = input('你想翻译啥:') url='http://fanyi.youda ...

  7. 爬虫python能做什么-Python除了能做爬虫之外还能做什么?

    原标题:Python除了能做爬虫之外还能做什么? 1.web开发python拥有非常完善的与web服务器进行交互的库,以及大量的免费的前端网页模板.更具优势的是,有非常优秀且成熟的Django Web ...

  8. 跳一跳python刷分_微信跳一跳技术手段高分秘籍:不仅可以用 Python 刷分,竟然还可以直接改分...

    原标题:微信跳一跳技术手段高分秘籍:不仅可以用 Python 刷分,竟然还可以直接改分 程序员头条(ID:CoderTop) 报道 微信跳一跳不仅可以用 Python 刷分,竟然还可以直接改分 最近这 ...

  9. Java 丢手绢游戏 求和_小区被“丢手绢”吼爆了, 大人都做过的, 现在竟然还可以这么火!...

    原标题:小区被"丢手绢"吼爆了, 大人都做过的, 现在竟然还可以这么火! 小区院坝里"丢手绢"吼爆了! "丢手绢丢手绢,轻轻的放在小朋友的后面,大家不 ...

  10. 仅使用python基本语法、即不使用任何模块、编写_微博可以设置“仅半年内可见”!你竟然还不知道???...

    原标题:微博可以设置"仅半年内可见"!你竟然还不知道??? 主编乱弹妞:两枚少女心爆棚的"女汉子",爱吃会耍又可爱,卖得了萌,犯得了二,自诩追得上陈伟霆,嫁得了 ...

最新文章

  1. 如何安装apache服务器最新,云服务器如何安装apache
  2. MyBatis实体属性与表的字段不对应的解决方案
  3. 摩斯密码(加密/解密)脚本
  4. 【转载】关于 Google Chrome 中的全屏模式和 APP 模式
  5. centos7 python3.6编译安装
  6. sql语法中u‘‘ n‘‘详解
  7. Linux(CentOS 6.5)下配置Mono和Jexus并且部署ASP.NET MVC5
  8. (转)OpenLayers3基础教程——OL3 介绍interaction
  9. mysql 备份脚本 linux,LINUX中MySQL如何按时备份脚本
  10. 中医移动医疗_人工智能为中医赋能 上海祉云医疗将再次亮相2021健博会北京展...
  11. newaxis取出某一行或列数据以及增加维度
  12. Luogu3810 三维偏序(陌上花开)
  13. dbeaver包含jdk11下载
  14. jq ui.dialog.js简介
  15. 对.Net 垃圾回收的C#编程相关方面(Finalize 和Dispose(bool disposing)和 Dispose())的一些理解体会【个人复习+zz】...
  16. 远程唤醒、WOL、Magic_Packet
  17. xilinx PCIe PIO工程仿真及验证
  18. .reg文件添加、修改、删除注册表的方法
  19. 酒越陈越醇,OPPO Reno越更越香
  20. java sql timestamp_java.sql.timestamp

热门文章

  1. 开4核后用哪个软件测试稳定性,测试CPU的稳定性的方法
  2. 主板 稳定测试软件,拷机必不可少 编辑推荐几款稳定性测试软件
  3. 见证“开放式多路供水”的技术难度应大于人类上天!
  4. uml点餐系统活动图_大学生网上订餐系统--UML建模
  5. python opencv对颗粒的计数与计算空洞率
  6. Rainmeter个人使用的插件
  7. 质性数据分析软件NVivo的安装选项和参数
  8. 内网穿透工具NatApp使用教程
  9. 最新Web前端经典面试试题及答案-史上最全前端面试题(含答案)
  10. llinux默认ip修改方法