语音识别技术原理简介

自动语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

语音识别技术所面临的问题是非常艰巨和困难的。尽管早在二十世纪五十年代,世界各国就开始了对这项技术孜孜不倦的研究,特别是最近二十年,国内外非常多的研究机构和企业都加入到语音识别技术的研究领域,投入了极大的努力,也取得了丰硕的成果,但是直到今天,距离该技术得到完美解决还存在着巨大的差距,不过这并不妨碍不断进步的语音识别系统在许多相对受限的场合下获得成功的应用。

如今,语音识别技术已经发展成为涉及声学、语言学、数字信号处理、统计模式识别等多学科技术的一项综合性技术。基于语音识别技术研发的现代语音识别系统在很多场景下获得了成功的应用,不同任务条件下所采用的技术又会有所不同。下图是在一个相对通用的任务条件下的语音识别系统示意图。语音识别系统构建过程整体上包括两大部分:训练和识别。训练通常是离线完成的,对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘,获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的,对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块:“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”),得到其包含的文字信息,此外,后端模块还存在一个“自适应”的反馈模块,可以对用户的语音进行自学习,从而对“声学模型”和“语音模型”进行必要的“校正”,进一步提高识别的准确率。

语音识别技术发展历史及现状

语音识别的研究工作大约开始于20世纪50年代,当时AT&T Bell实验室基于共振峰提取技术实现了第一个可识别十个英文数字的语音识别系统——Audry系统。

60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态时间规划(DP)和线性预测分析技术(LPC),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。

70年代,语音识别领域取得了较大进展。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

80年代,MFCC的参数提取技术和HMM模型的深入使用使得语音识别技术得到进一步的发展,语音识别的问题逐步在理论体系上得到了比较完整和准确的描述,同时在实践上又逐步研发出效率较高的解决算法。

90年代以来,在美国国防部的Darpa测试、Ears计划、近期的Gales计划,以及我国863计划等推动下,一大批高水平的研究机构和企业加入到语音识别的研究领域,极大地推动了语音识别技术的发展和应用。语音识别系统已经从过去的小词汇量、孤立词识别、特定人识别、安静环境等简单任务逐步发展到大词汇量、连续语音、非特定人、噪声环境下的识别任务,从单纯的语音识别任务发展到语音翻译任务,从实验室系统走向商用系统。

讯飞语音识别技术

讯飞语音识别技术的理念是提供信息时代人机沟通的最佳方式。在核心技术研究方面,科大讯飞公司一直秉承着“顶天立地”的方针。“顶天”,就是要求在基础技术上不断创新,不断突破;“立地”,就是技术要和实际应用相结合,最终能够产生经济效益和社会效益。讯飞语音识别技术的研究继承了这样的优良传统,在基础技术方面锐意进取,不断创新,特别是在特征鲁棒性、模型区分性训练、大词汇量语音识别解码技术、语音模糊搜索等方面提出了多项创新性观点,并多次在国内外著名的学术期刊、会议及专刊上进行发表,取得了丰硕的成果。在技术与实际应用相结合方面,也充分考虑了应用系统之间的差异,为客户量身定制,提供了语音命令识别、智能语音搜索、语音检索等技术,并正在开展针对自然连续语流的会议内容转写识别整套解决方案。

下面是科大讯飞对语音识别技术的整体规划:

命令词识别技术—在受限的命令词或者语法范围提供自动语音识别服务,需要很少的计算资源,但是要求用户能够“配合”语音识别系统,尽量说“集内词”。

智能的人机交互技术—结合大词汇量语音识别、自然语言理解、信息检索等技术提供特定领域内相对开放输入的语音识别服务,对用户的限制较为宽松,在所限定的领域内可以以自然语言的方式进行人机交互。

语音转写技术—在无特殊限定的范围内完成对连续自然语音进行内容转写,目前还需要较大的计算资源。

语音搜索技术—语音技术和搜索技术的结合,提供最便捷的信息搜索服务。

语音识别技术原理是什么 讯飞语音识别技术特点介绍【详解】相关推荐

  1. 语音识别已逐渐普及 搜狗讯飞各具特色

    原标题:语音识别已逐渐普及 搜狗讯飞各具特色 [手机中国 软件]18日晚,老罗的单口相声给了我们不少惊喜,高配置.新系统.人性化功能.严肃导航语音包,然而令人非常意外的是,锤子发布会竟然还带火了语音输 ...

  2. 腾讯、百度、讯飞 语音识别

    一.腾讯语音识别-一句话语音识别 1.账号申请 (1)搜索腾讯云官网 https://cloud.tencent.com/?fromSource=gwzcw.2212127.2212127.22121 ...

  3. 蓝牙耳机录音进行讯飞语音识别

    最近在做一个翻译戒指的项目 ,里面有语音识别,然后拿到识别的文字去翻译内容 语音识别,肯定是用讯飞的 ,但是项目的的声音来源不是手机 ,是蓝牙耳机 ,也是第一次接手这样的项目,有点蒙蔽了,去网上找了一 ...

  4. 语音听写与合成--(讯飞语音识别与合成百度语音识别)

    目前比较厉害的国内免费开源的语音识别库主要就是:讯飞和百度,本篇博客也是关于这两家SDK的使用. 讯飞语音开放平台:http://doc.xfyun.cn/msc_android/299547 讯飞平 ...

  5. 讯飞语音识别demo实现

    最近看了看百度语音和讯飞语音识别的实现,吐个槽,他们的官方文档是真的写得垃圾,可能是我技术不到位, 反正我是很难看懂的,不吐槽了,先上实现 讯飞的官方文档 https://doc.xfyun.cn/m ...

  6. Flutter版讯飞语音识别demo

    xf_demo是根据科大讯飞语音听写的WebAPI编写的Flutter版demo 官方文档地址:https://www.xfyun.cn/doc/asr/voicedictation/API.html ...

  7. python实时语音智能聊天<讯飞语音识别+青云客机器人>

    python基于 讯飞语音识别实现语音智能聊天 GitHub项目链接:https://github.com/superzhangjc/python-Voice_chat.git

  8. 讯飞语音识别配置笔记

    不久前开发过讯飞语音识别和小程序结合的系统,发表了一篇配置记录,有一些同学问一下问题,我再把我但是自己做的另外一篇记录发出来,给需要的同行参考一下.上一篇文章的地址:http://blog.csdn. ...

  9. 讯飞语音识别和唤醒开发示例

    讯飞语音识别和唤醒开发示例 最近需要用到讯飞的语音识别和语音唤醒的功能,就对这方面进行了一下简单研究. 本文帮助大家简单入门,并且提供几个代码示例给大家参考. 讯飞开发者网址:https://www. ...

最新文章

  1. 用python-opencv实现简单的车牌定位
  2. 江湖召集:.NET开发者们看过来,这场长沙的开发者技术大会正是为你精心准备的大餐...
  3. 5G毫米波三大自然缺陷
  4. ZooKeeper官方文档学习笔记03-程序员指南03
  5. 如何更高效地使用 OkHttp
  6. java war包 加密_Java加密jar包流程
  7. 【windows】Windows电脑怎么卸载服务/删除服务?
  8. 串口控件MSCOMM的注册方法(使用MSCOMM串口控件程序的运行问题)
  9. pubg解封验证计算机怎么验证,绝地求生解封教程
  10. 源码编译shc-3.8.7
  11. 个人社区(博客)项目Romantic——功能模块划分
  12. 三、公网环境搭建Kubernetes (k8s) 集群的详细图解
  13. java斜体_Java可以指示字体是否为斜体字
  14. linux6.9 fc cache,(转载, 已看)fc-cache出错解决办法.
  15. quot转双引号 php,js把 quot 转义双引号
  16. 数睿数据的四域模型(软件=数据+形式)源何引发强烈关注?
  17. Linux链接命令和搜索命令
  18. 【雕爷学编程】Arduino动手做(5)---热敏温度传感器模块
  19. Websocket 可以玩出些什么花儿?
  20. 知往鉴今:Chromium近三年UXSS漏洞分析及缓解、预防和检测措施

热门文章

  1. (1)c语言学习总结之从关键字到循环结构
  2. CCF202104-1 灰度直方图(100分)【计数】
  3. ZOJ3210 A Stack or A Queue?【序列】
  4. 树莓派(Linux)与镜像源
  5. 常见空指针异常及其避免
  6. python hdf5 —— h5py
  7. 数据结构与算法的实现 —— 结点定义与数据结构的选择
  8. 唐诗辑注 —— 逢雪宿芙蓉山主人、十五夜望月、小儿垂钓
  9. 词汇的积累 —— 反义词、同义词
  10. 3C(Computer、Communication、Consumer Electronic)