雷锋网讯,“某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。

作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

而基于保险、通信、预定等金融行业的语料库中,作者发现其WER的测试结果高达23.31%。其中,预定和通信的错误率最高,可能是因为对话涉及特定的日期、时间、订单金额、地点、产品和公司名称等。但在所有领域的测试中,其错误率均高于13.73%。

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。

研究发现,商业语音识别系统存在高错误率相关推荐

  1. 错误率_研究发现,商业语音识别系统存在高错误率

    雷锋网讯,"某些语音识别系统(ASR)的准确性可能要比之前假定的差很多."这是最近约翰·霍普金斯大学.波兰波兹南工业大学.弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在 ...

  2. 基于STM32实现孤立词语音识别系统

    语音识别是机器通过识别和理解过程把人类的语音信号转变为相应文本或命令的技术,其根本目的是研究出一种具有听觉功能的机器.本设计研究孤立词语音识别系统及其在STM32嵌入式平台上的实现.识别流程是:预滤波 ...

  3. stm32语音识别文字显示_STM32实现孤立词语音识别系统

    语音识别是机器通过识别和理解过程把人类的语音信号转变为相应文本或命令的技术,其根本目的是研究出一种具有听觉功能的机器.本设计研究孤立词语音识别系统及其在STM32嵌入式平台上的实现.识别流程是:预滤波 ...

  4. 麻省理工研究发现,商业人工智能存在严重的性别和肤色歧视

    内容来源:ATYUN AI平台 根据来自麻省理工学院和斯坦福大学将在公正,责任和透明的会议上(Fairness, Accountability, and Transparency)上发布的新论文显示, ...

  5. 基于DTW和HMM算法的语音识别系统对比研究-毕业小结

    论文导读:别算法 (一)动态时间归整算法 发音具有随机性,同一个人在不同时间,不同场合对同一摘自:7彩论文网写毕业论文经典的网站http://www.7ctime.com个字的发音长度都不是完全一样的 ...

  6. 高通宣称其语音识别系统准确率高达95%

    腾讯科技讯 据外媒报道,在美国波士顿举行的Re-Work深度学习峰会上,高通的人工智能研究人员克里斯-洛特(Chris Lott)展示了其团队在语音识别计划方面的新进展. 这种语音识别系统在智能手机或 ...

  7. 研究发现:“帽子”越多越高的教师,对研究生越没有用

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文来源:文双春科学网博客  作者:文双春 如今,大学时兴贴标签,如 ...

  8. 研究发现:在中国学历越高的女性越瘦,男性则相反

    来源:iNature 编辑:研路科研人sci "研路漫漫,伴你同行." iNature 在中国,自 1980 年以来,成年人的平均体重指数 (BMI) 和肥胖症一直在稳步上升.然而 ...

  9. 语音识别系统及科大讯飞最新实践

    http://geek.csdn.net/news/detail/96948 语音作为最自然便捷的交流方式,一直是人机通信和交互最重要的研究领域之一.自动语音识别(Automatic Speech R ...

最新文章

  1. i7 7代 linux,【Intel 酷睿i7 7代(移动版)参数】Intel 酷睿i7 7代(移动版)系列CPU参数-ZOL中关村在线...
  2. HAProxy详解(二):HAProxy基础配置与应用实例
  3. 批量修改mp3文件的title等
  4. 【题解】Luogu P2783 有机化学之神偶尔会做作弊
  5. 缓冲池Buffer Pool
  6. java虚拟机性能监控调优及原则
  7. java对象与内存控制
  8. 2019-0404视觉SLAM的学习第三讲01
  9. 通信技术专业技术人员考试 动力与环境_中级通信工程师动力与环境考试大纲...
  10. C语言RLE压缩解压算法(西电C程序作业4)
  11. 珍惜生命之水,节约从我做起
  12. 【RuoYi-Vue-Plus】扩展笔记 01 - 集成 JavaMail 发送邮件(源码)
  13. 贪吃蛇c语言存档读档,刚学C语言,想写一个贪吃蛇的代码
  14. Android音视频点/直播模块开发
  15. 网络营销之网络炒作案例分析、精髓及方法讨论
  16. CAD手机看图软件中如何根据已知坐标点绘制线段?
  17. K-means 算法(基本用法)
  18. 升级IE7.0的唯一理由
  19. 网易云音乐评论内容逆向分析
  20. Linux 设备分配清单(kernel:2.6+)

热门文章

  1. iOS开发UI篇—常见的项目文件介绍
  2. Android透明效果的实现
  3. 父窗口、子窗口和Silverlight之间的相互调用
  4. Android小项目之--应用解析 Content Provider-内容提供商(附源码)
  5. CCF201903-4 消息传递接口(100分)【模拟】
  6. 计算机设计思想 —— 总线
  7. Java 定制工具库 —— Print(import static)
  8. python 标准库 —— io(StringIO)
  9. 从多路搜索树到 B-树
  10. 推理集 —— 特殊的时间