转自:https://www.zhihu.com/question/23473262/answer/812989806

作者:zahet
链接:https://www.zhihu.com/question/23473262/answer/812989806
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

开源的语音识别首先推荐的当然就是ASRT语音识别项目

这是一个基于中文的语音识别开源项目,GitHub地址为:

nl8590687/ASRT_SpeechRecognition​github.com

项目主页:https://asrt.ailemon.me

ASRT是一套基于深度学习实现的语音识别系统,全称为Auto Speech Recognition Tool,由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,使用大量中文语音数据集进行训练,将声音转录为中文拼音,并通过语言模型,将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型,在Windows平台上实现了一个基于ASRT的语音识别应用软件,取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用,也一起开源在GitHub上了。

ASRT语音识别系统的声学模型采用了深度全卷积神经网络,直接将语谱图作为输入。模型结构上,借鉴了图像识别中效果最好的网络配置VGG,这种网络模型有着很强的表达能力,可以看到非常长的历史和未来信息,相比RNN在鲁棒性上更出色。在输出端,这种模型可以和CTC方案可以完美结合,以实现整个模型的端到端训练,将声音波形信号直接转录为中文普通话拼音序列。在语言模型上,通过最大熵隐含马尔可夫模型,将拼音序列转换为中文文本。并且,为了通过网络提供服务给所有的用户,本项目还使用了Python的HTTP协议基础服务器包,提供基于网络HTTP协议的语音识别API,客户端软件通过网络,调用该API实现语音识别功能。

系统的流程

特征提取

将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号,即语谱图。

声学模型

基于Keras和TensorFlow框架,使用这种参考了VGG的深层的卷积神经网络作为网络模型,并训练。

CTC解码 在语音识别系统的声学模型的输出中,往往包含了大量连续重复的符号,因此,我们需要将连续相同的符合合并为同一个符号,然后再去除静音分隔标记符,得到最终实际的语音拼音符号序列。

语言模型 使用统计语言模型,将拼音转换为最终的识别文本并输出。拼音转文本的本质被建模为一条隐含马尔可夫链,这种模型有着很高的准确率。

其原理请看:

统计语言模型:从中文拼音到文本 | AI柠檬​blog.ailemon.me

基于HTTP协议的API接口

本项目使用了Python内置的http.server包来实现了一个基础的基于http协议的API服务器。通过将声学模型和语言模型连接起来,使用该服务器程序,可以直接实现一个简单的API服务器,通过POST方式进行数据交互。

客户端

本项目的客户端分为两种,均为Windows客户端,一个是UWP客户端,另一个是WPF客户端,源码均需要使用VS2017来开发和编译,使用C#和XAML编写。项目包含有界面逻辑和录音模块、语音识别API调用模块,并包含对wav文件的raw格式进行的解析。

关于ASRT语音识别的详细介绍:

ASRT:一个中文语音识别系统​blog.ailemon.me

GitHub地址:

ASRT语音识别项目相关推荐

  1. 从零开始搭建属于自己的语音识别API服务器(ASRT开源项目)

    首先要明确一点,这个搭建的是自己的API服务器:不是什么科大讯飞.百度语音这种付费API,而且那是直接使用别人的API,这是搭建自己的API,相比之下还是有区别的 材料准备 云服务器 (本人使用的的是 ...

  2. Mozilla “Common Voice” 开源语音识别项目

    语音识别技术可能会彻底改变我们与机器的交互方式,但通常技术开发代价昂贵,而且有专利上的使用限制.大多数语音识别技术都被封锁在少数的大公司内.Mozilla认为这样会阻碍创新,因此它发起了"C ...

  3. 为什么李开复说科大讯飞不懂语音,99%的语音识别项目要死掉?

    原标题:为什么李开复说科大讯飞不懂语音,99%的语音识别项目要死掉? 全文约3000字,阅读时间预计5分钟. 3月3日,李开复老师出席了在海南三亚万豪酒店举行的"2017年投资界百人论坛&q ...

  4. 语音识别项目报告.pdf

    您所在位置:网站首页 > 海量文档 &nbsp>&nbsp中学教育&nbsp>&nbsp中学课件 语音识别项目报告.pdf61页 本文档一共被下载:次 ...

  5. TFASR 开源语音识别项目解构

    TFASR 开源语音识别项目解构 模型下载 AM pan.baidu.com/s/1NPk17DUr0-lBgwCkC5dFuQ 7qmd aishell-1(20 epochs) LM pan.ba ...

  6. 语音识别项目简历收集-----机器学习(仅供参考)

    语音识别 项目名称:智能手表语音识别系统 **项目描述:**儿童智能监控语音识别手表,可以实现人机沟通,紧急呼救报警等功能. **职责描述:**1.使用scipy,numpy,读取和绘制音频数据 2. ...

  7. QT学习笔记(语音识别项目 )

    语音识别项目 我们知道 AI 智能音箱已经在我们生活中不少见,也许我们都玩过,智能化非常高,功能 强大,与我们平常玩的那种蓝牙音箱,Wifi 音箱有很大的区别,AI 智能在哪里呢?语音识别技 术和云端 ...

  8. 人工智能(AI)入门---傅里叶语音识别项目(全家福)

    通过前面的介绍,我们傅里叶语音识别项目的技术已经全部到位,这一节贴出全家福,看一看图像,捋清思路,知道怎么去做,以供参考,第一幅:假fft1920(假wu音),这里加载的是yi(壹)音的特征头,fft ...

  9. 基于React-Native0.55.4的语音识别项目全栈方案

    [摘要] 移动端的API能力验证方案与PC端不一样!不一样!!不一样!!! 即使需要使用的API都存在,也不一定能用,这一点和PC端是有很大区别的,国内的手机系统虽然都是基于Android,但几乎都会 ...

最新文章

  1. 投票系统之防止重复投票
  2. mysql更新后返回主键,我需要在MYSQL中更新表后返回的受影响行的主键。
  3. php sqlite3菜鸟,SQLite Update 语句
  4. 白盒测试有哪些方法_QA测试开发常考的面试题+答案汇总(持续更新)
  5. [TCP/IP] ping traceroute和TTL
  6. Kafka端到端审计
  7. FairyGUI1:FairyGUI 编辑器
  8. macOS Monterey 12.0beta4黑苹果镜像虚拟机版本
  9. Java微信小程序商城源码,Java微信开发框架源码,前后端分离
  10. opengl 库函数 glew glfw glad glut gl glu freeglut
  11. [Apache Kafka 3.2源码解析系列]-2-Kaka高性能高可用设计原理
  12. 经常被问到的有深度有内涵的数据结构面试题
  13. python激光扫描雷达_一文详解固态激光雷达的里程计(loam_livox)
  14. eclipse 打开txt文件乱码
  15. Nginx 配置 HTTPS 证书
  16. 【MapReduce】MapReduce读写MySQL数据
  17. 【Bioinformatics】背曲拇指与 Ehlers-Danlos syndrome
  18. 不可以涩涩!AI续写软件初体验;迁移学习路线图;谷歌新闻非官方搜索API;CS295『因果推理』2021课程资料;前沿论文 | ShowMeAI资讯日报
  19. 仿InfoPath的Business Form 设计器
  20. oracle dbac安装,oracle rac环境修改db_files参数

热门文章

  1. EBS系统扫二维码登录开发
  2. 怎么运用好ZBrush中Magnify膨胀笔刷
  3. super extend
  4. 【无标题】关于Java——给即将开学的弟弟送上一份礼物
  5. ORB-SLAM2安装后无法显示图片
  6. 景甜种甜、雨昕助攻,聚划算垂类借势攻擂
  7. 开班倒计时!12月1日—CDA数据分析就业班火热报名中
  8. Flash开启自动运行指引(转载自QQ空间)
  9. 假设将15个MSA连入超级高铁网络,如何用最少的轨道连接所有MSA?
  10. vol.162 女朋友来大姨妈,你该怎么办?