雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

而基于保险、通信、预定等金融行业的语料库中,作者发现其WER的测试结果高达23.31%。其中,预定和通信的错误率最高,可能是因为对话涉及特定的日期、时间、订单金额、地点、产品和公司名称等。但在所有领域的测试中,其错误率均高于13.73%。

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

(雷锋网雷锋网)

https://venturebeat.com/2020/10/22/researchers-find-high-error-rates-in-commercial-speech-recognition-systems/

错误率_研究发现,商业语音识别系统存在高错误率相关推荐

  1. 研究发现,商业语音识别系统存在高错误率

    雷锋网讯,"某些语音识别系统(ASR)的准确性可能要比之前假定的差很多."这是最近约翰·霍普金斯大学.波兰波兹南工业大学.弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在 ...

  2. qt商业版和开源版的区别_微擎商业版系统V2.0.9全开源版纯净框架

    微擎商业版系统V2.0.9全开源版纯净框架_全新界面无后门无任何限制.该源码不含任何安装模块,最重要的是该版本是一键安装版,主要你上传到服务器上,然后直接运行域名就会直接进入安装环境,不会像网络上的其 ...

  3. 交替性注意力_研究发现大脑在专注与分心之间不停交替,注意力才能达到最佳状态...

    当我们专注于一件事时,大脑究竟是怎么运作的? 一般人肯定觉得,既然能够保持专注,那大脑一定是紧紧瞄准了这个目标任务不放,在这段时间内绝不会去思考别的事儿. 这样想就错了! 研究感知的神经科学家现在发现 ...

  4. 基于STM32实现孤立词语音识别系统

    语音识别是机器通过识别和理解过程把人类的语音信号转变为相应文本或命令的技术,其根本目的是研究出一种具有听觉功能的机器.本设计研究孤立词语音识别系统及其在STM32嵌入式平台上的实现.识别流程是:预滤波 ...

  5. stm32语音识别文字显示_STM32实现孤立词语音识别系统

    语音识别是机器通过识别和理解过程把人类的语音信号转变为相应文本或命令的技术,其根本目的是研究出一种具有听觉功能的机器.本设计研究孤立词语音识别系统及其在STM32嵌入式平台上的实现.识别流程是:预滤波 ...

  6. 麻省理工研究发现,商业人工智能存在严重的性别和肤色歧视

    内容来源:ATYUN AI平台 根据来自麻省理工学院和斯坦福大学将在公正,责任和透明的会议上(Fairness, Accountability, and Transparency)上发布的新论文显示, ...

  7. 语音识别系统_智能语音识别系统_第三方语音识别系统 - 云+社区 - 腾讯云

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 腾讯云语音识别服务开放实时语音识别.一句话识别和录音文件识别三种服务形式,满足不同 ...

  8. 基于DTW和HMM算法的语音识别系统对比研究-毕业小结

    论文导读:别算法 (一)动态时间归整算法 发音具有随机性,同一个人在不同时间,不同场合对同一摘自:7彩论文网写毕业论文经典的网站http://www.7ctime.com个字的发音长度都不是完全一样的 ...

  9. 科大讯飞语音识别_科大讯飞 语音识别_科大讯飞语音识别系统 - 云+社区 - 腾讯云...

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 到目前为止科大讯飞的javasdk不支持客户端和服务端分开的情况,也就是说,语音合 ...

最新文章

  1. 内存管理-定时器循环、内存布局、tagged pointer、weak指针、copy、自动释放池
  2. Select2控件的使用
  3. 学科实践活动感悟50字_中学生学科实践活动50字
  4. 设计模式笔记15:代理模式(Proxy Pattern)
  5. Linux x64 下 Matlab R2013a 300 kb 脚本文件调试的 CPU 占用过高问题的解决办法
  6. 深度学习(二十六)Network In Network学习笔记
  7. Python 快速部署安装所需模块
  8. Linux教程shell篇——黑马课程笔记
  9. python中group是啥_python中group和groups函数的区别
  10. 工作到底都能给你带来哪些好处?
  11. 小程序——picker组件
  12. 【英雄九日集训】(七月第一轮)第一天——数组
  13. 第三方平台创建小程序步骤
  14. 笔记本电脑在拔插电源时屏幕会黑一下,然后马上恢复正常
  15. 【通州建设】地铁S6线更名为21号线!途径通州多站!
  16. 百度地图整合离线和使用
  17. 视频会议及流媒体十大开源项目
  18. 苹果手机中病毒显示无服务器,苹果手机中毒五大特征!一般认为这是正常现象,你的iPhone中了吗...
  19. Linux 镜像官网下载地址
  20. 纵浪大化中 不喜亦不惧 应尽便须尽 无复独多虑

热门文章

  1. python-Django环境搭建
  2. 请写一个函数,实现以下功能: 字符串“open_door” 转换成 “OpenDoor”、”make_by_id” 转换成 ”MakeById”...
  3. 非替换元素和替换元素
  4. YEAH!!距离拿回touch4倒计时:7days
  5. linux节点ssh免密码登录linux节点
  6. 很火的深度学习框架PyTorch怎么用?手把手带你安装配置
  7. 《2018中国区块链行业分析报告》(50页PPT全文)
  8. CANOpen生命守护机制
  9. golang http 返回html文件_从零部署安装 Grpc-golang
  10. 70 个常见 Spring 面试题,Java 晋升必会