引言

在上一篇文章中人工智能PK金牌速记员之实战录,我们讲述了阿里云年会人机大战背后的故事。技术Geek们可能就好奇了?现场的实时转录系统是怎么回事? 其中核心的语音识别系统到底是什么,工作原理是什么? 阿里云iDST的语音识别系统准确率为什么可以做到这么高,有什么独得之秘?本文将会将这些问题的答案一一揭晓。

人机大战之现场

阿里云年会现场,图中左边屏幕显示的是语音识别,右边屏幕显示的是人工速记

上图是视频的截图,展示的就是阿里云年会人机大战的现场情形, 阿里云的掌门人孙权在台上演讲,自动语音系统和速记员分别给出演讲的文本内容,同时投屏,现场PK正确率。其中,左边的屏幕展示语音识别的结果,作为字幕显示在实时图像上;另一边则是全球速记亚军姜毅先生将演讲内容速记下来,以白屏黑字的方式显示给观众。

现在问题来了,阿里云iDST的系统是如何做到实时转录并将语音识别的结果作为字幕展示给观众的呢?

实时转录系统架构

这里给出了演示系统的软硬件架构如下图所示。

  • 音频方案
    在音频方面,现场嘉宾的讲话内容通过无线麦克风传递到USB声卡。为了实现同时语音识别和现场放音的效果,USB声卡的输出中一路送到调音台然后到现场的扬声器播放给观众,另一路则通过PC软件进行音频采集,将采集到的音频数据发送到阿里云语音服务器上运行语音识别,并将语音识别的文本结果实时返回,为实时产生字幕做准备。
  • 视频方案
    在视频方面,现场也会产生两路视频输入: 一方面摄影师通过摄像机拍摄嘉宾演讲的画面传回到中控台;另一方面,流式返回的语音识别结果文本通过渲染产生滚动的字幕效果,并展示在一个纯绿屏图像上。最后,在中控台处,通过抠屏软件将滚动的字幕叠加在嘉宾演讲画面上,产生实时字幕的效果。

在整个系统中,最为核心的算法部分就是一个是语音识别服务部分,它的作用就是将嘉宾的演讲内容实时转换为文本内容。那么现在问题又来了,语音识别是怎么工作的呢?

语音识别技术概览

语音识别就是把语音转换为文字的技术。经过几十年的发展,它已经成为目前人工智能领域发展的较为成熟的一个应用方向。那么看似神秘的语音识别技术背后的基本原理到底是怎么回事呢?鉴于篇幅原因,这里只简单的解释一下语音识别的基本原理。

目前,主流的语音识别系统多采用统计机器学习方法完成。一个典型的语音识别系统由以下几个模块所组成:

  • 语音采集模块。在此模块中,麦克风录入的语音通过采集之后得到一个数字化的语音信号表示,比如一个16k采样率16bit的数字化语音表示,就是将每秒的语音表示为1,6000个16-bit的整数;
    特征提取模块。该模块的主要任务是把采集的数字语音信号转换为特征向量,供声学模型处理;
  • 声学模型。声学模型用来表征人的语音跟语音识别产生的文本在声音上的相似程度。传统上通常使用隐含马尔科夫模型-混合高斯模型(HMM-GMM),近些年多使用隐含模型科夫模型-深度神经网模型(HMM-DNN)或者其他改进模型表示。
  • 发音词典。发音词典包含语音识别系统所能处理的所有的词汇及其发音,发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射关系。
  • 语言模型。语言模型对系统所针对的语言进行建模,用来评估识别出的文本的“流畅程度”。目前应用最广的一种是基于统计的N元文法(Ngram)及其变体。
  • 解码器。解码器是语音识别系统的核心之一,其任务是对输入的特征矢量,根据声学模型和语言模型,寻找能够以最大概率输出该特征矢量的词串,通常使用基于束搜索(beam search)的维特比算法完成这个搜索过程。

上面所述就是一般的语音识别系统的背后基本原理,在很多科普性的介绍中都有所涉及。实际上iDST的语音识别系统也落在上述介绍的基本框架中,但是iDST的语音识别系统为什么有这么高的准确率,有什么独得之秘呢?

IDST语音识别系统

台上一分钟,台下十年功。在阿里云年会上iDST语音识别系统所展示的超高准确率是建立在iDST语音团队同学丰富的业界经验和过去一年辛勤工作所产生的深厚积累上的。这里就简单介绍一下iDST语音识别系统所有的独到特点。

  • 业内领先的声学模型建模技术BLSTM

在语音识别的声学模型方面,iDST团队拥有业内最领先的BLSTM (bi-directional long-short-term-memory) 建模技术,可以通过序列建模的方式,同时使用语音时序序列中的历史信息和“未来”序列信息;保证了声学模型建模的最佳准确性,有效地提升语音识别的准确率,相比于上一代的基于深度神经网(DNN)的声学模型建模方法,相对性能提升可以达到15%-20%。为了实现BLSTM技术,iDST语音组的同学还原创性的解决了BLSTM在训练效率和实际部署中的延迟问题, 成为世界上第一个在工业实时系统中部署BLSTM技术的团队, 关于该技术的介绍请参考云栖文社区的文章。

  • 业内领先的超大规模的语言模型建模技术

正如上一章所说,语言模型在语音识别系统中的作用就是用来评估句子的通顺程度。语言模型的一个核心指标是模型对测试文本的匹配程度(使用困惑度来表示)。在实际应用中,语言模型对领域的相关性越强,对语料的覆盖度越高,识别效果就越好。为了增加语言模型的覆盖度,保证对各个领域的识别性能。iDST借助阿里云的计算优势,使用了全网语料作为训练数据,自主开发了基于Max-Compute的并行语言模型训练工具, 训练产生了规模高达百亿 ngram 条目的超大语言模型(模型文件大小高达数百G字节)。正是有了这样大规模的语言模型,使得iDST的语音识别系统可以很好的识别很多生僻的词,比如“芈月传中的葵姑扮演者”这种新潮词,比如古诗词的识别,比如各种学科术语等等,都不在话下。

  • 业内领先的语音识别解码技术

语音识别解码器是语音识别在工业界部署的核心问题。虽然解码器的基本原理为人所知(维特比搜索),并且一个玩具的解码器原型只需要200行左右的代码就可以工作,但是一个真正工业级的解码器确是目前语音识别中真正最具挑战性的问题。
语音识别解码是一个真正的计算密集型和内存密集型的计算流程。解码器的第一个挑战是,声学模型(深度神经网)打分是一个典型的计算密集型过程(矩阵乘法),为了保证这一部分的效率,iDST的同学做了各种算法优化(量化解码,模型压缩等)和指令优化(针对各种硬件平台),降低了这一部分的计算量。
解码器中面临的一个更大的挑战是如何在语音识别中使用超大规模语言模型,因为巨大的模型可能使得解码过程中内存成为瓶颈,而且解码中对语言模型的反复查找会使计算成为瓶颈。 为了达到在解码过程中使用超大语言模型的目的, iDST的同学对语言模型的存贮表示以及和解码器的核心算法以及跟语言模型的交互方式进行了深度的定制。既节省了解码时的语言模型内存耗费,又充分利用了解码过程中的信息,减少了语言模型部分的计算量,使得在线使用成为可能。实际上,即使在整个世界上范围内,能够使用这种规模的语言模型用于单遍解码的语音识别系统也屈指可数。
对应这部分,iDST的同学会写相应的文章来阐述这一部分的奥秘。

  • 模型的快速迭代和训练

另外一个取得这么优秀性能的原因是模型的快速迭代和训练。语音识别中的声学模型和语言模型技术需要基于海量数据进行学习的,那么如何完成在海量数据上的快速迭代就变得尤为重要。在上面提到的大规模语言模型训练工具之外, iDST还基于阿里云的基础架构,构建了GPU集群的多机并行深度学习系统用来完成声学模型的训练(详情请参考GPU训练的文章 。这样系统的快速迭代就变成了可能。

  • 高性能计算支持

正如上面所述,语音识别本身是个计算密集型系统。为了保证演示当天达到最佳的效果,在年会当天,使用的HPC是阿里云带GPU加速的新一代高性能计算平台,单节点计算性能高达16TFLOPS,加上算法优化,保证了语音识别的实时响应速度。

好了,专为技术Geek们准备的揭秘就到这里了。如果还对其中的技术细节感兴趣,请参考阿里iDST的云栖社区公众号吧。

阿里云年会人机大战-技术大揭秘相关推荐

  1. 【云周刊】第156期:首帧秒开+智能鉴黄+直播答题,阿里云直播系统背后技术大起底...

    本期头条 首帧秒开+智能鉴黄+直播答题,阿里云直播系统背后技术大起底 关注直播行业的人都知道, 2016年是移动直播的元年,那一年,网红被我们挂在嘴边,直播平台数量呈大规模增长.模式从最开始的秀场直播 ...

  2. 从飞天到倚天 阿里云底层自研技术大爆发

    10月20日,2021云栖大会上,阿里云发布了倚天.磐久.神龙4.0.龙蜥.灵杰等多款重磅产品,阿里云"做深基础"成果浮出水面,底层自研技术迎来大爆发. 阿里云智能总裁张建锋表示, ...

  3. 首帧秒开+智能鉴黄+直播答题,阿里云直播系统背后技术大起底

    摘要: 想要快速实现直播能力,并对原有业务不产生任何影响,依托如阿里云一样的直播平台,来搭建移动直播系统,将技术难题交给阿里云,把更多的精力放在核心业务的本身,是最为稳妥和高效的选择.本文介绍阿里云直 ...

  4. Service Mesh 如何重定义云原生计算?阿里服务网格技术大揭秘

    受访者 | 王夕宁 记者 | 伍杏玲 出品 | CSDN(ID:CSDNnews) 如今微服务已成为构建现代云应用的主导模式,它围绕着特定的业务功能,将单个组件分解为独立的服务.但随之而来产生另外的问 ...

  5. 阿里云架构师张先国:揭秘ECS倚天实例背后的技术

    11 月 15 日,阿里云 ECS 倚天实例正式开始商业化.此前,阿里巴巴宣布阿里云未来两年 20% 的新增算力将使用自研 CPU.11 月 5 日,云栖大会"倚天开启云原生算力新时代&qu ...

  6. 阿里云携手达内教育培养大数据技术人才

    本文讲的是阿里云携手达内教育培养大数据技术人才,1月12日,达内教育集团与阿里云在北京召开新闻发布会,共同向外界宣布双方达成战略合作关系,共同培养云计算.大数据方向的技术人才. 按照协议,到2017年 ...

  7. 【阿里云产品公测】大数据下精确快速搜索OpenSearch

    2019独角兽企业重金招聘Python工程师标准>>> [阿里云产品公测]大数据下精确快速搜索OpenSearch 作者:阿里云用户小柒2012 相信做过一两个项目的人都会遇到上级要 ...

  8. 阿里云史上最大技术升级:面向万物智能的飞天2.0

    1991年,<科学美国人>杂志描绘了一种"无处不在的计算设备,没人会感觉到它的存在",拉开了万物智能的序幕. 27年后的2018杭州•云栖大会上,阿里云公布了面向万物智 ...

  9. 阿里云释放数据能力 开启大数据元年

    2016云栖大会·上海峰会召开,这也是暨北京.杭州.成都.武汉.广州等地之后的又一次阿里云的盛会.而此次大会上,阿里云将主题聚焦在大数据,不但发布了大数据平台数加,还发布了阿里企业级互联网架构平台解决 ...

最新文章

  1. 看完这篇文章之后,终于明白了编译到底怎么回事。
  2. tensorflow安装后在 pychram中 使用测试 找不到 tensorflow 模块的问题解决
  3. Go——Artifactory的AQL查询以及json解析解决方案
  4. oracle12c安装卡住_12C rac安装卡住了
  5. 一分钟了解Android横竖屏 mdpi hdpi xhdpi xxhdpi xxxhdpi
  6. 敲代码时如何快速移动光标_如何用 Linux 技巧大大提高工作效率?
  7. 关于在页面中针对不同版本的IE浏览器实现不同的JS或者CSS样式
  8. Python 3 学习——函数扩展and迭代器生成器装饰器
  9. 不使用 Cookie 的“Cookie”技术
  10. javascript中insertRow(index) 和insertCell(index)
  11. 迷瘴 详解(C++)
  12. 前端: 从零封装一个可实时预览的json编辑器
  13. Maven本地仓库搭建
  14. 不想使用Windows自带远程桌面客户端的另外一种选择
  15. cdrx8如何批量导出jpg_cdrx8如何批量导出jpg_办公软件操作技巧022:如何从word文档中批量导出多张图片......
  16. Linux欧姆单位怎么打,电阻常识-younger0-ChinaUnix博客
  17. 如何删除IE中的证书
  18. 某大厂程序员吐槽外包员工是大爷
  19. DSP之Controlsuit和C2000Ware下载安装
  20. 每日刷题:lightoj-1004 - Monkey Banana Problem

热门文章

  1. Pytorch基础训练库Pytorch-Base-Trainer(支持模型剪枝 分布式训练)
  2. 浅谈AJAX并实现使用pagehelper-5.1.10.jar分页插件实现异步从数据库中获取数据分页显示
  3. javascript基本语法(输入输出语句,变量常量,数据类型,运算符,流程控制语句,数组,函数)
  4. 良好的JavaScript编码风格(语法规则)
  5. gpa-user-guide-for-ubuntu-host
  6. j2ee之原生AJAX
  7. Android 开发工具类 02_DensityUtils
  8. Windows界面编程-背景图片、透明特效使用
  9. dsoFramer 的原代码
  10. 高级T-SQL第1级的阶梯:使用交叉连接来引入高级T-SQL