回首2010年,马特·汤普森(Matt Thompson)在美国国家公共广播网(NPR)的一篇评论文章中预言:“在不远的将来,自动语音转录技术将变得快捷、好用,而且是免费的。”他将那一时刻称为“语音奇点”,巧妙地借用了发明家雷·库兹韦尔(Ray Kurzweil)的“奇点理论”——后者认为我们的意识有朝一日可以上传到电脑上。汤普森还预言,可靠的自动语音识别(ASR)软件将会改变记者的工作,更不用说律师、销售人员和听力障碍者了,所有处理语言说和写的从业人员都会受到影响。

汤普森的预言曾令我十分激动,我迫切希望有一种技术能把我从令人疲倦的整理采访记录的工作中解脱出来。不过,虽然他在广播领域有着辉煌的职业生涯,而且还在继续(他目前担任NPR调查报道中心的主任,负责《揭秘》节目等),但他预言的“语音奇点”似乎遥不可期。

不过,我们显然已经取得了重大的进展。大量初创企业,例如Otter、Temi和Trint,开始提供在线服务。用户可以上传数字音频文件,在几分钟后就能获得语音转录的文本。在我担任音频制作人时,几乎每一天都在使用这些服务。服务软件生成文本的速度在提升,而所需的费用也在不断降低,这确实令人欢喜鼓舞。

但文本的准确率却是另一回事。2016年,微软研究院的一个团队宣布,他们的机器学习算法经过训练后,将标准语料库的录音转换成文本的准确率高达94%。在微软的测试实验中,这一软件几乎能和专业的转录员做得一样好,大量媒体也开始称赞语音识别软件与人类“平起平坐”的时代已经到来。

但事实上,最后6%的准确率才是真正的难题所在。一个更惨痛的教训的是:校对一份准确率为94%的文本耗费的时间,几乎和直接手动转录原始录音所耗费的时间相差无几。而在这一次突破的4年后,Temi等服务软件仍没能将准确率提高至95%以上,而且只能处理音质清晰、没有口音的语音。

准确率为何如此重要?举一个例子,越来越多的音频制作者在发布播客时会遵循着网络的易用性规范,附带一份文本版本,但是,如果文本里的文字每隔20个单词就出现一处错误,那肯定没人愿意看。再考虑一下,如果像Alexa、Bixby、Cortana、Google Assistant和Siri这样的语音助手能够正确识别它们接收到的每一个问题或指令,能给人们节省多少时间?

ASR软件可能永远无法达到100%的准确率。毕竟人们说话未必总是十分流利,即使是使用母语。语言中也有太多需要结合上下文才能理解的同音异义词。(语音转录服务曾将“iOS”识别为“Ayahusca”。)

但我所期望的是,这些语音服务还能提升1%~2%的准确率。在机器学习领域,为了减少算法错误率,一个至关重要的方法是提供更多高质量的训练数据。因此,大多文本转录服务商都会采用不侵犯隐私的方式搜集更多的数据。举例来说,每一次我修订由Trint或是Sonix转录的文本时,我都在生成一份验证过的符合原始录音的新数据,这可以用于提升算法模型的质量。如果这能让今后的错误率变得更低,我很乐于让这些企业使用这些数据。

显然,增加训练数据是实现“语音奇点”的方法之一。随着我们和机器对话的数量增多,我们产生的音频数量也会与日俱增,可靠的语音转录技术将不再是奢侈的幻想或是遥遥无期的目标,它必然会实现。

撰文:韦德·劳什(Wade Roush)

翻译:赵剑琳

文章来源:环球科学

语音识别的准确率,永远达不到100%?相关推荐

  1. 语音识别准确率永远达不到100%?

    制图:杰伊·本特(Jay Bendt) 撰文 | 韦德·劳什(Wade Roush) 翻译 | 赵剑琳 回首2010年,马特·汤普森(Matt Thompson)在美国国家公共广播网(NPR)的一篇评 ...

  2. return中断方法和Unreachable code(永远达不到的代码)

    return中断方法和Unreachable code(永远达不到的代码) 1.下面这段代码因为for循环是个死循环,System.out.println(); 执行不到编辑器会报错Unreachab ...

  3. 语音识别技术准确率早已超过人类平均水平

    语音交互在某些方面是一个"升维"的操控方式,相比传统的操控方式来说,"语音"能让使用者无需直接接触被操控物就能实现某些功能.比如在实时互译.智能家居的操控以及面 ...

  4. 高通宣称其语音识别系统准确率高达95%

    腾讯科技讯 据外媒报道,在美国波士顿举行的Re-Work深度学习峰会上,高通的人工智能研究人员克里斯-洛特(Chris Lott)展示了其团队在语音识别计划方面的新进展. 这种语音识别系统在智能手机或 ...

  5. linux系统的烤机软件,NVIDIA英伟达 GeForce8/9/100/200/300/400/500/GeForce 600系列显卡Linux驱动...

    NVIDIA英伟达 GeForce8/GeForce9/GeForce 100/GeForce 200/GeForce 300/GeForce 400/GeForce 500/GeForce 600系 ...

  6. 3年后准确率仍达97%:利用谷歌语音转文本 API 绕过reCAPTCHA

     聚焦源代码安全,网罗国内外最新资讯! 三年前出现的一种攻击技术是,使用谷歌自身的语言转文本 API 绕过谷歌的音频 reCAPTCHA,目前其准确率仍然高达97%. 1月2日,安全研究员 Nikol ...

  7. 人工智能“面诊”识别罕见遗传疾病,准确率可达90%

    [ 图片来源:Nature ] 近日,美国FDNA公司在国际知名医学科研期刊<自然医学>(Nature Medicine)上发布了题为<使用深度学习识别遗传疾病的面部表型>(I ...

  8. 四川首例 “自贡话智能语音识别系统”在检察院投用

    自贡话语音识别系统在电脑上的图标 杨宁用自贡话语音识别系统办公 大家好,我shi自贡勒. 走!门招 (明天)即(去)看灯会. 尝试一下用自贡话念念以上语句,然后把方言转换成文字.作为四川最难学的方言之 ...

  9. 人工智能AI、机器学习模型理解

    人工智能就是机器学习和大数据: 机器学习是什么:就是算法模型: 算法模型是什么: 俗地说,模型就是机器学习采用的算法."模型文件"一般说的是这个算法用到的各种输入.输出数据的值. ...

最新文章

  1. 基于STC8H1K28的BH60的角度读写模块
  2. 网站降权可从两方面着手分析
  3. mfc程序转化为qt_智慧虎超:小程序如何为珠宝行业助力?低频商品的高频转化你懂吗...
  4. 怀旧版大脚插件未能从服务器,魔兽世界怀旧服大脚插件
  5. 绘图: Python matplotlib简介
  6. java%4d_java积累
  7. Matrix Problem
  8. python中global的使用_PYTHON中使用GLOBAL引发的一系列问题
  9. 电商后台、手机端、小程序、H5、电商原型、需求池、产品结构图、接口流程、高保真交互、PRD、布局说明、数据统计、店铺管理、商品管理、财务管理、售后、订单、会员、客服、标签、Axure原型、产品原型
  10. Java程序设计语言基础04:数组
  11. UOJ 7 NOI2014 购票
  12. mac文件丢失,苹果电脑有没有好用的恢复软件?
  13. Dell R410服务器查看系统raid级别
  14. 构建Postfix邮件系统(一) -- postfix+dovecot
  15. 〖EXP〗NSA MS17010永恒之蓝漏洞一键工具
  16. 错误代码:0x800F081F-0x20003。在INSTALL_UPDATES操作过程中的SAFE_OS阶段,安装失败,出现错误
  17. 西南大学计算机辅助设计试题,西南大学 1906 课程名称:(9123)《计算机辅助设计》机考 答案-奥...
  18. Harmony OS har包生成和使用技巧
  19. (离散)设函数 f:A→B,g:B→C,证明:若g °f是满射,则g是满射.
  20. 万能通用网关系统!就该这么设计,稳的一批!

热门文章

  1. 090525 T 站点地图接口
  2. 书籍推荐:《Secrets of the Oracle Database》
  3. Bailian4149 课程大作业【DP】
  4. POJ4001 HDU4121 UVA1589 UVALive5829 Xiangqi【模拟+回溯】
  5. UVA299 UVALive5600 Train Swapping【逆序偶+暴力】
  6. Inception V3 的 tensorflow 实现
  7. LaTeX indicator function(指示函数)(\mathbb {1} 不起作用)
  8. 算法 Tricks(五)—— 将一个序列量化为何值时平方误差最小
  9. Tricks(三十五)—— 内积的极简实现
  10. nginx websocket wss 连接失败 failed_浅谈WebSocket协议、WS协议和WSS协议原理及关系