制图:杰伊·本特(Jay Bendt)

撰文 | 韦德·劳什(Wade Roush)

翻译 | 赵剑琳

回首2010年,马特·汤普森(Matt Thompson)在美国国家公共广播网(NPR)的一篇评论文章中预言:“在不远的将来,自动语音转录技术将变得快捷、好用,而且是免费的。”他将那一时刻称为“语音奇点”,巧妙地借用了发明家雷·库兹韦尔(Ray Kurzweil)的“奇点理论”——后者认为我们的意识有朝一日可以上传到电脑上。汤普森还预言,可靠的自动语音识别(ASR)软件将会改变记者的工作,更不用说律师、销售人员和听力障碍者了,所有处理语言说和写的从业人员都会受到影响。

汤普森的预言曾令我十分激动,我迫切希望有一种技术能把我从令人疲倦的整理采访记录的工作中解脱出来。不过,虽然他在广播领域有着辉煌的职业生涯,而且还在继续(他目前担任NPR调查报道中心的主任,负责《揭秘》节目等),但他预言的“语音奇点”似乎遥不可期。

不过,我们显然已经取得了重大的进展。大量初创企业,例如Otter、Temi和Trint,开始提供在线服务。用户可以上传数字音频文件,在几分钟后就能获得语音转录的文本。在我担任音频制作人时,几乎每一天都在使用这些服务。服务软件生成文本的速度在提升,而所需的费用也在不断降低,这确实令人欢喜鼓舞。

但文本的准确率却是另一回事。2016年,微软研究院的一个团队宣布,他们的机器学习算法经过训练后,将标准语料库的录音转换成文本的准确率高达94%。在微软的测试实验中,这一软件几乎能和专业的转录员做得一样好,大量媒体也开始称赞语音识别软件与人类“平起平坐”的时代已经到来。

但事实上,最后6%的准确率才是真正的难题所在。一个更惨痛的教训的是:校对一份准确率为94%的文本耗费的时间,几乎和直接手动转录原始录音所耗费的时间相差无几。而在这一次突破的4年后,Temi等服务软件仍没能将准确率提高至95%以上,而且只能处理音质清晰、没有口音的语音。

准确率为何如此重要?举一个例子,越来越多的音频制作者在发布播客时会遵循着网络的易用性规范,附带一份文本版本,但是,如果文本里的文字每隔20个单词就出现一处错误,那肯定没人愿意看。再考虑一下,如果像Alexa、Bixby、Cortana、Google Assistant和Siri这样的语音助手能够正确识别它们接收到的每一个问题或指令,能给人们节省多少时间?

ASR软件可能永远无法达到100%的准确率。毕竟人们说话未必总是十分流利,即使是使用母语。语言中也有太多需要结合上下文才能理解的同音异义词。(语音转录服务曾将“iOS”识别为“Ayahusca”。)

但我所期望的是,这些语音服务还能提升1%~2%的准确率。在机器学习领域,为了减少算法错误率,一个至关重要的方法是提供更多高质量的训练数据。因此,大多文本转录服务商都会采用不侵犯隐私的方式搜集更多的数据。举例来说,每一次我修订由Trint或是Sonix转录的文本时,我都在生成一份验证过的符合原始录音的新数据,这可以用于提升算法模型的质量。如果这能让今后的错误率变得更低,我很乐于让这些企业使用这些数据。

显然,增加训练数据是实现“语音奇点”的方法之一。随着我们和机器对话的数量增多,我们产生的音频数量也会与日俱增,可靠的语音转录技术将不再是奢侈的幻想或是遥遥无期的目标,它必然会实现。

语音识别准确率永远达不到100%?相关推荐

  1. 语音识别的准确率,永远达不到100%?

    回首2010年,马特·汤普森(Matt Thompson)在美国国家公共广播网(NPR)的一篇评论文章中预言:"在不远的将来,自动语音转录技术将变得快捷.好用,而且是免费的."他将 ...

  2. 当输入法语音识别准确率达97%是怎样一种体验?

    原标题:当输入法语音识别准确率达97%是怎样一种体验? 为何大家都在感叹"语音输入"是一项黑科技?"语音输入"并不是近10年才兴起的新技术,早在上个世纪中期,& ...

  3. 将语音识别准确率提升40% 他是当下最受比尔·盖茨器重的中国人

    原标题:将语音识别准确率提升40% 他是当下最受比尔·盖茨器重的中国人 导语:"你想造一个有意识,又聪明的东西,多生点小孩不就好了." 微软有三大部门.一个是销售单位,它必须要赚今 ...

  4. return中断方法和Unreachable code(永远达不到的代码)

    return中断方法和Unreachable code(永远达不到的代码) 1.下面这段代码因为for循环是个死循环,System.out.println(); 执行不到编辑器会报错Unreachab ...

  5. AI加持 百度输入法语音识别准确率相对提升15%

    7月3日,在2019百度AI开发者大会上,百度首席技术官王海峰在介绍百度大脑AI技术时谈到百度AI能力应用落地的重要产品之一"百度输入法",截止目前,百度输入法日均语音请求量峰值已 ...

  6. 一种提升语音识别准确率的方法与流程

    本发明涉及语音识别技术领域,特别涉及一种提升语音识别准确率的方法. 背景技术: 人机交互是通过输入,输出设备,以有效的方式实现人与机器对话的技术.已广泛应用在消费电子,通信,家电,医疗,汽车等各个行业 ...

  7. 百度、搜狗、讯飞同时宣布语音识别准确率达到97%,他们是怎么做到的?

    导读 11 月 21 日到 23 日,搜狗.百度和科大讯飞三家公司接连召开了三场发布会,向外界展示了自己在语音识别和机器翻译等方面的最新进展.值得注意的是,这三家公司几乎在同一时段宣布了各自中文语音识 ...

  8. 输入法黑科技:语音识别准确率98% 用户超过6亿

    图为6月12日,讯飞输入法联合创始人翟吉博在"爱输入·更懂你"的媒体见面会上展示黑科技. 消息 一分钟打出400字,是什么样的体验?以往只有专业速录员能实现的打字速度,如今运用了大 ...

  9. 语音识别准确率终于提升了 以后可以随时和机器人聊天

    [摘要]随着语音识别技术准确率的提高,其应用范围也在不断扩大:搜索.购物和发现娱乐内容,对机器说话将很快像对人说话一样司空见惯. 腾讯数码讯据Forbes网站报道,仅仅在7年前,语音识别技术听起来还是 ...

最新文章

  1. debian安装oracle jdk
  2. 深入理解Java Class反射机制
  3. 【OpenCV 例程200篇】100. 自适应局部降噪滤波器
  4. 微信公众号的开发 Senparc.Weixin.dll使用
  5. 数据库实验四 视图实验
  6. 轻量而敏捷的工业组态软件UI设计工具-ConPipe Studio 2022
  7. 用Liveupdata 刷MSI主板Slic 2.1
  8. Linux开发板网线连接电脑,ubuntu虚拟机桥接windows,实现三方互通
  9. Jan Jürjens-基于模型的安全性系统-UMLChina讲座-音频和幻灯
  10. 【ADS867x】14 位 500kSPS 4/8 通道 ADC 简介及驱动应用示例
  11. video-play使用,vue2
  12. python监控文件或目录大小_python监控文件或目录的变化(实例代码)
  13. 云南农业大学matlab,云南农业大学关于公第七届学生科技.doc
  14. 洛谷 P1477 [NOI2008]假面舞会
  15. FTD2XX_NET.dll学习笔记
  16. POST常见数据提交类型
  17. 麻将游戏(mahjong)题解
  18. 【ZT】粤语发音练习
  19. 性能优化之FPS实践报告。
  20. shell脚本生成手机号码

热门文章

  1. 数据库存储I/O类型分析与配置
  2. 运用PhantomJS测试JavaScript
  3. git revert reset
  4. 经典网页设计:20个与众不同的国外 HTML5 网站
  5. 通过Lotusscript修改数据库主模板属性
  6. code review手记2
  7. 火狐浏览器插件大全,火狐插件大全,firefox插件使用方法
  8. 开放源代码的软件测试工具
  9. HDU1320 ZOJ1201 Inversion【水题】
  10. UVA763 LA5339 Fibinary Numbers【大数】