作者简介

倪捷,腾讯云高级产品经理。北京邮电大学硕士。现在腾讯云大数据与人工智能产品中心AI应用产品组担任高级产品经理,负责智能语音相关AI产品,拥有互联网、金融等行业人工智能落地的丰富经验。本文来自倪捷在“2018携程技术峰会”上的分享。

本文梳理了智能语音技术发展路线,行业现状以及其面临的挑战等相关情况,并详细阐述了语音技术的常见落地场景以及相应的一些优化。同时,分享了腾讯云智能语音落地案例,为语音技术的实践使用提供借鉴,来共同推动语音技术的交流和发展。

一、语音识别基础原理(ASR)

图1 语音识别基础原理示意图

语音识别技术原理如图1所示:首先需要利用相关技术对声音进行特征提取并建立声学模型,然后结合词典,语言模型等方法,在一定的搜索空间内进行搜索和解码最终得到结果。

1.1 业界语音识别水平及面临的挑战

现有业界的语音识别技术在理想条件下普遍能达到97%,这个理想条件包含背景安静,近场,普通话标准,朗读等条件。但是现实中往往会面临对识别器的效果产生恶化影响的情况,如,发音人的口语化严重,轻度口音,在这种程度较轻的情况下,业界依然能够保持85%-90%的识别正确率。

进一步,如果语音背景嘈杂,发音人远离拾音器或者存在严重的口音叠加,这种情况下,识别率会有明显的下降。

总结语音识别面临的挑战,如下列所示:

  • 噪声影响:例如车载环境下会有回声以及各种噪声源。

  • 远场识别:麦克风和声源距离过远时收音识别效果较差。

  • 专业领域识别:导航、办公、旅游、美食等不同场景有语言模型。

  • 方言口音:全球有上千种语言,中国的方言种类也非常多。

  • 口语化:不同情绪下语速、声调不同,吞字、结巴会造成音频质量参差不齐。

  • 高质量收音:在多人、声音嘈杂的场景下,如何“听清楚”。

二、语音合成(TTS)

语音合成在早些时候并不热门,但是随着技术的成熟和依赖高质量沟通体验的人机沟通的发展又逐渐热门起来。另外,现在业内很多推销及客服电话已经实现机器人打电话的过程甚至沟通能力,在这种情况下需要高质量的语音合成技术来有效降低用户直接挂断电话的概率。

语音合成可以简单理解为,将文字转化为拟人化的声音,满足多种场景对不同声音的需求,完成人机语音交互的闭环的过程。

当前业内最热门的技术是Google主导开发的WaveNet引擎,其对应MOS值达到了4.5+,而真人录音的MOS值在4.4+左右,几乎可以以假乱真。

2.1 语音合成面临的挑战

同语音识别一样,语音合成也面临很多的挑战。声音也要具备多适应的特点,在不同的场景需要不同的声音以及用户提出的语音定制化的要求,这些需求对语音合成技术提出下列所示的挑战:

  • 语音定制化:声音也是品牌的代表,追求品牌的公司不愿意共享声音

  • 录音时长:合成要求一定量的高质量录音,会带来录音时间及其它成本

  • 声音的适应性:有的声音适合读物朗读,有的声音适合做语音助手

  • 多音字,特殊读法

  • 拟真度:发音准确性,流畅度,抑扬顿挫等一系列因素决定合成效果与真人差距

  • 主观性:对声音好坏的判断有一定个人主观性,难有客观的标准

三、典型落地场景下语音技术的优化

3.1 语音输入法

语音输入法最早是内嵌到手机中的,通常是手机厂商像Google,苹果,三星等这些公司主导在做,后续才逐渐出现在输入法软件,如讯飞,百度,搜狗等。

用户在实用场景或者APP中,通用语音输入法一方面由于需要切换才能进行相关操作,缺乏灵活性,另外一方面无法根据场景或者APP进行定制化,如场景热词的定制。因此,现有语音输入法的发展趋势为从输入法软件向APP内部迁移,如王者荣耀中的语音输入文字交互的场景。

3.2 录音转写(人与人交互)

录音转写主要是用于服务质量,甚至责任的判定,如话务员日常跟客户交流的话术是否符合标准。它能够有效解决:人工抽检速度慢,覆盖率低;标准不一,无法避免个人主观性影响;成本高,需要大量人力,且需要定期培训、抽查等等难题。

不同于语音输入法场景,是人与机器沟通,人会下意识“迁就”机器而刻意放慢语速,而录音转写面对的是人与人的沟通,会面临交互口语化程度高,背景噪声不可控等问题,因此大大提升了录音转写的难度。实践证明,能有效提高录音转写准确率的方法如下:

1)选择正确的引擎参数。如:采样率:8K or 16K,单声道or 双声道。

2)尽可能提升录音质量,降低背景噪音,减少无关声音的输入,使说话人不要远离麦克风,不要采用大压缩比的音频格式。

3)定制化提升,语料训练,热词。

3.3 客服机器人

经过大量探索和实践证明语音最大落地场景就是机器人。例如,客服场景,它面临的80%以上的问题都是重复的,因此机器人的使用能够大大的减轻客服人员的压力。而语音机器人结合语音识别,语音合成等等技术,实现多渠道的覆盖,为用户提供更好的体验。可以说基于人工智能的客服系统逐渐变为企业的竞争力。

语音技术的发展也为新时代数字化服务提出了更高的要求,如:更好的人机交互体验,更丰富的智能化功能,更多样的人机交互渠道。简而言之,语音是人类最自然的沟通方式,语音技术与机器人能力的结合会带来全新的服务体验。

四、腾讯云智能语音落地案例分享

腾讯云在智能语音方面已经有一些成功的落地方案,包括跟金融行业,故宫,亚朵酒店等的一些合作。

对于金融级任务机器人,主要完成一些基础转账操作,用户通过语音进行人机交互,其中包含银行卡的选择,转账金额的确认,最终转账等功能,是在金融行业语音交互上的进一步探索。

在跟故宫的联合合作中,主要是对故宫展品的介绍进行语音合成。用户可以通过扫描相应的二维码来获取语音的展示,这些合成的语音质量非常高,拟人化强。

在此同时,跟亚朵酒店的合作中,利用“小微”智能音箱打造智慧酒店的行业智能解决方案。在酒店中,接入相关设备,他可以听得懂、看得见。这是一个专门适合懒人的黑科技,只需要张开嘴轻声呼唤"HI,小微",然后通过语音交互令窗帘、音箱、灯光、空调都在掌握之中。除此之外,它还可以查询天气、交通路线、新闻资讯、查询机票等。该方案已经在北京,深圳等城市落地和使用。

另外语音技术也可以应用在其他的场景中。例如在视频中,实现音频判断是否违规的鉴别能力;在记录方面,可以应用在法庭记录等场景,节省大量的人工的工作;也可以应用在翻译和同传方面。

【推荐阅读】

  • 携程技术演进之路

  • 《携程技术2018年度合辑》,送给爱学习的你

干货 | 腾讯云智能语音行业落地探索与实践相关推荐

  1. 最佳实践 | 用腾讯云智能语音打造智能对话机器人

    在AI技术的推动下,智能对话机器人逐渐成为我们工作.生活中的重要效率工具,乃至是伙伴,特别是为企业带来最原始最直观的"降本增效"落地实现. 作为开发者,你是否有想过基于语音技术打造 ...

  2. 客户最佳实践 | 容器云在证券行业的探索与实践(华泰证券管文琦 朱凯)

    一.背景 金融市场瞬息万变,高效的业务支撑能力离不开与时俱进的IT系统.随着公司业务的发展,IT系统数量在不断增多,同时每个系统的复杂度也在不断提高.即便在微服务改造之后,IT系统的开发.交付和运维依 ...

  3. 盘点智能语音行业:Nuance没落 BAT围绕核心业务

    随着人工智能浪潮的来临,以及物联网场景下应用需求的不断扩大,智能语音技术在智能家居.智能汽车.教育等领域的应用逐步深入,带动着智能语音产业规模的持续快速增长.再加上"互联网女皇"玛 ...

  4. 全球及中国智能语音行业应用趋势及发展方向研究报告2021-2027年

    全球及中国智能语音行业应用趋势及发展方向研究报告2021-2027年 HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--HS--H ...

  5. 直击智能语音行业痛点,腾讯云小微云函数助力AI语音落地

    近两年,Serverless的发展带来了架构开发的新思路,开发者可以避免繁杂的后台开发配置工作和巨型系统架构城堡,快速构建起应用并部署,应对市场的变化. 2019年腾讯Techo开发者大会Server ...

  6. 腾讯云智能制造首次披露三大战略布局,发布“511”生态伙伴计划

    9月10日,在腾讯全球数字生态大会上,腾讯云智能制造首次披露三大战略布局,同时发布"511"生态计划,未来将聚焦工业制造研.产.供.销.服5大环节,携手100家合作伙伴,打造100 ...

  7. 年终答卷 腾讯云智能综合实力稳居国内第一梯队

    国际知名调研机构沙利文联合头豹研究院发布<2021年中国计算机视觉市场报告>,腾讯云智能的增长指数和创新指数十分突出,在中国计算机视觉市场中综合竞争表现位居领导者象限. 腾讯云智能凭借领先 ...

  8. 灵犀云智能语音云平台产品白皮书(摘要)

    灵犀云产品白皮书 本文档主要描述了中国移动智能语音能力平台灵犀云的基本功能,为初次使用灵犀云的开发者提供简要的入门信息.文档中提供了灵犀云平台的架构和功能介绍,但并不作为开发指南使用. 概述 灵犀云智 ...

  9. 阿里云智能语音交互服务导览

    阿里云智能语音交互 产品介绍 & 接口文档 阿里云iDST的智能语音交互服务主要有以下几个大类: 语音识别服务ASR :将语音转换成文字的能力快速集成,打造出"能听"的应用 ...

  10. 有道智云智能语音服务全面升级 最多可支持44种语言和方言

    原标题:有道智云智能语音服务全面升级 最多可支持44种语言和方言 有道智云·AI开放平台智能语音服务全面升级,支持40多个小语种的语音识别.及翻译!现在开通注册即送50元体验金免费体验!戳一下了解详情 ...

最新文章

  1. 英特尔分布式深度学习平台Nauta-安装、配置与管理指南
  2. VC++ 下使用QT初步入门学习
  3. SAS在金融中的应用七
  4. Python GUI界面编程初步 02 - Tkinter基础
  5. 《软件需求》读后感02
  6. form表单提交数据的同时上传文件代码示例
  7. 任正非谈鸿蒙系统06 新闻,任正非首谈华为鸿蒙操作系统:很有可能比安卓和苹果还要快!...
  8. win7计算机自动关机设置在哪里设置方法,win7怎么设置自动关机【详细步骤】
  9. 嵌入式linux字体库,嵌入式 初探freetype字体库
  10. 相关性分析:Pearson、Kendall、Spearman
  11. 台湾省九齐NY8A051G 内置MOS版本6 I/O 8-bit EPROM-Based MCU
  12. Solidworks2014在win8下安装无权限
  13. java-net-php-python-4jspm游艇俱乐部管理系统计算机毕业设计程序
  14. sundayplayer第一版本开放源代码
  15. 正益移动王国春:布局在是与不是之间
  16. 信用风险建模 in Python 系列 7 - ASRF 模型
  17. Unity(8)-开启或关闭背景音乐
  18. QOS 之 WRED
  19. 云适配联合IT巨头拟成立“中国企业级HTML5产业联盟”
  20. GeckoDriver 国内镜像源加速下载

热门文章

  1. 7 在使用计算机时要注意防 .,Windows7系统使用移动硬盘的七大注意事项
  2. 推荐子龙山人的emacs的教程
  3. phpcms整站代码分析
  4. 痞子衡嵌入式:恩智浦i.MX RT1xxx系列MCU启动那些事(8)- 从Raw NAND启动
  5. VS2019正式版注册码秘钥
  6. 实时渲染——三种渲染方法介绍
  7. 在网页中插入背景音乐代码(html)
  8. 简单好用的钉钉群消息助手
  9. 亚马逊Alexa Connect Kit(ACK)
  10. java网吧系统_基于SSM框架下的JAVA网吧管理系统