计算机技术总是在朝着功能更强大、使用更方便的方向发展,用户的需求永远都是技术前进的动力。ASR和TTS的出现,让人和计算机的距离更加靠近,人机接口更加自然。由于技术(识别率不够高)和人们习惯上的原因,ASR离真正的普及还有一段距离。但是,在通信领域,由于CTI的广泛应用,计算机技术不断融入通信平台,这项技术正在如火似涂的发展、普及。VoiceXML就是一个很好的例子,它的应用就是以ASR和TTS作为基础的。 ASR,英文的全称是Automated Speech Recognition,即自动语音识别技术,它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:1. 识别词汇表的大小和语音的复杂性;2. 语音信号的质量;3. 单个说话人还是多说话人;4. 硬件。

TTS,英文全称是TextToSpeech,即文语转换,又称为计算机语音合成,它的过程和ASR刚好相反,是把计算机中任意出现的文字转换成自然流畅的语音输出。一般认为,语音合成系统包括三个主要的组成部分:文本分析模块、韵律生成模块和声学模块。目前,TTS的技术已经可以达到商业化的地步。

SAPI简介

目前,市场上有很多比较成熟的语音ASR和TTS产品,而且他们大多数都支持二次开发,如微软的Speech Application SDK(SASDK)、IBM的Dutty++等。他们能识别(生成)英语、日语和中文等不同国家的语言,Dutty++甚至能够识别某些地区的方言,如广东的方言-粤语。下面我们以SAPI作为例子,简单的介绍一下ASR和TTS的开发引擎。 微软的SAPI是作为Windows的一部分,已经被被集成在Windows里面。相对于其他引擎,他的识别率也比较高,如果做过适应性调整,识别率可以达到90%以上,而且他的开发包是还可以免费获取的,各种文档资源也很齐全,很方便做二次开发。由于SAPI是作为Windows的一个独立组件在发展,版本更新也比较快。

最新的SAPI 3.1提供了基于COM的高级编程接口,应用程序通过这些接口与语音引擎打交道。SAPI将ASR和TTS功能集成在同一个语音引擎中,TTS可以将文本和文件合成为语音,ASR则是将人的声音信号转换为可读的文本或文件。

摘自 http://hi.baidu.com/ella_qing/blog/item/40efb93e91d309fa838b1379.html 数据库生活圈

什么是ASR、TTS?相关推荐

  1. 汉字转拼音,文字转语音tts (语音技术、语音识别),Asr/tts,变声

    语音识别,语音合成.语音技术主要分两块:一块是语音转文字,即语音识别:另一块是文字转语音,即语音合成.   语音相关技术研发 语音合成技术整体解决方案.一系列语音技术的相关专利,包括文本处理.韵律预测 ...

  2. 浅谈语音技术(ASR/TTS/质检/声纹)

    文章目录 1. 写在前面 2. 语音合成 TTS (1) 基本概念 (2) 效果评估方法 (3) 音色与定制 (4) 发音规则 3. 语音识别 ASR (1) 基本概念 (2) ASR效果影响因素 口 ...

  3. 基于Asterisk和TTS/ASR语音识别配置示例

    智能客服的开发基于ASR和TTS的处理是一个非常关键的技术点.博主通过多年研究后发现通过软交换平台直接和一些大公司的ASR和TTS接口进行交互,通过媒体服务器的拨号规则的处理,可以实现智能客服,或者自 ...

  4. “万人迷”小冰背后的AI故事

    作者 | Jane 出品 | AI科技大本营 从 2014 年的夏天小冰出现在我们的视野到今天,谈到小冰,你的第一印象是什么?一款可爱.萌萌哒的聊天机器人?一款随时在你身边,可以帮你做一些场景任务的语 ...

  5. “马踏飞”AI机器人实现方案介绍

    当今互联网随处可见各种语音助手,从手机到智能音响,从机器人到手机App语音助手.随着公司业务的发展,今年我们也决定搭建自己的智能客服系统,同时结合公司自身业务,马踏飞燕App 旅游比价业务场景,同时参 ...

  6. ​FreeSWITCH视频会议“标准”解决方案

    本文由FreeSWITCH 中文社区创始人杜金房在LiveVideoStack线上分享的演讲内容整理而成,详细介绍了FreeSWITCH做为一种开源的视频会议解决方案如何在开源.开放的基础上,对接各种 ...

  7. 从通信到AI FreeSWITCH与WebRTC

    FreeSWITCH是一个开源的软交换平台,具有模块化结构,支持包括WebRTC在内的多种互通互联.本文来自FreeSWITCH 中文社区创始人杜金房在LiveVideoStack线上交流分享中的演讲 ...

  8. 市场占比 44%,IDC 最新报告:阿里云智能语音市场排名第一

    编辑 | Aholiab 出品 | CSDN(CSDNnews) 近期,权威调研机构IDC发布了<中国AI云服务市场半年度研究报告>,就国内主要云厂商的云上AI服务进行了调研,包括人脸人体 ...

  9. 语音对话平台海尔五代智能电视落地

    智能语音交互(Intelligent Speech Interaction)是AI的入口,智能语音交互之于VUI,正如鼠标键盘之于GUI.但什么是智能语音交互呢?这个名词并非每位同学都能望文生义,我试 ...

  10. FreeSwitch学习(1)-总体简介

    1.FreeSwitch的概念 FreeSwitch是一个开源的语音通信软交换平台,是一个跨平台的/伸缩性极好的/免费的/多协议的电话软交换平台. 1.1.FreeSwitch的特性  FreeSw ...

最新文章

  1. 【重磅】Waymo无人车高层组团出走?CFO今日也走了!
  2. 【Learning Spring 5.0】001 Spring架构及Spring介绍
  3. 程序开发基础学习四(boost::signal2 函数学习)
  4. Linux Shell脚本专栏_批量检测网站是否异常脚本_08
  5. 【Lucy-Richardson去卷积】迭代加速算法
  6. 12096 - The SetStack Computer
  7. 赋予用户最高权限的一点“挫折”
  8. Github访问慢的问题
  9. 博时基金的大数据平台建设之道
  10. 异常排查_Python-日志模块.NoSectionError: No section: '*' 错误?
  11. 矢量图片转换 emf to eps
  12. 完美解决LION下HD3000的花屏,横线,死机问题
  13. 研究:多因素影响粮食安全 应早做规划避免粮食短缺
  14. 华硕电脑锁定计算机,华硕笔记本电脑的BIOS怎么设置
  15. 关于苹果的iOS cercertificate的创建问题
  16. 六、v4l2 ctrl 函数初始化---增加自定义接口v4l2_ctrl_new_custom
  17. 那些入行的Python工程师们还好吗?
  18. 海思hi3531处理器参数,hi3531芯片详细信息简介
  19. eds能谱图分析实例_基础理论丨一文了解XPS(概念、定性定量分析、分析方法等)...
  20. win11右键直接显示更多选项

热门文章

  1. SQL创建某一年日历表
  2. ae教程 (五)滤镜特效 (一)
  3. JAVASCRIPT之函数-输入秒J数转换成时分秒的一个小效果
  4. 系统分析师-软件工程知识点
  5. 使用nexus私服下载和上传依赖
  6. 为什么ad域打开失败_【AD】域环境常见错误集
  7. linux 双网卡bond命令,Linux下bond双网卡绑定(示例代码)
  8. 百度之星1005 序列变换(lis)
  9. 电赛中常用的模块电路设计
  10. 华为设备配置SSH远程登录