(文章来源:CSDN)

语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有很多难点没有突破,比如多轮交互、多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术。新的技术应该彻底解决这些问题,让机器听觉远超人类的感知能力。这不能仅仅只是算法的进步,需要整个产业链的共同技术升级,包括更为先进的传感器和算力更强的芯片。

单从远场语音识别技术来看,仍然存在很多挑战,包括:(1)回声消除技术。由于喇叭非线性失真的存在,单纯依靠信号处理手段很难将回声消除干净,这也阻碍了语音交互系统的推广,现有的基于深度学习的回声消除技术都没有考虑相位信息,直接求取的是各个频带上的增益,能否利用深度学习将非线性失真进行拟合,同时结合信号处理手段可能是一个好的方向。

(2)噪声下的语音识别仍有待突破。信号处理擅长处理线性问题,深度学习擅长处理非线性问题,而实际问题一定是线性和非线性的叠加,因此一定是两者融合才有可能更好地解决噪声下的语音识别问题。(3)上述两个问题的共性是目前的深度学习仅用到了语音信号各个频带的能量信息,而忽略了语音信号的相位信息,尤其是对于多通道而言,如何让深度学习更好的利用相位信息可能是未来的一个方向。

(4)另外,在较少数据量的情况下,如何通过迁移学习得到一个好的声学模型也是研究的热点方向。例如方言识别,若有一个比较好的普通话声学模型,如何利用少量的方言数据得到一个好的方言声学模型,如果做到这点将极大扩展语音识别的应用范畴。这方面已经取得了一些进展,但更多的是一些训练技巧,距离终极目标还有一定差距。

(5)语音识别的目的是让机器可以理解人类,因此转换成文字并不是最终的目的。如何将语音识别和语义理解结合起来可能是未来更为重要的一个方向。语音识别里的 LSTM 已经考虑了语音的历史时刻信息,但语义理解需要更多的历史信息才能有帮助,因此如何将更多上下文会话信息传递给语音识别引擎是一个难题。

(6)让机器听懂人类语言,仅靠声音信息还不够,“声光电热力磁”这些物理传感手段,下一步必然都要融合在一起,只有这样机器才能感知世界的真实信息,这是机器能够学习人类知识的前提条件。而且,机器必然要超越人类的五官,能够看到人类看不到的世界,听到人类听不到的世界。

打开APP精彩内容

点击阅读全文

未来语音识别技术的发展趋势将会怎样相关推荐

  1. 未来语音识别技术的发展趋势会如何

    (文章来源:AI科技大本营) 语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有很多难点没有突破,比如多轮交互.多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术.新的技术应该彻底解 ...

  2. 浅谈语音识别技术的发展趋势与应用前景 - 全文

    一.语音识别技术定义 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键.二进制编 ...

  3. 语音识别遇到的困难 - 浅谈语音识别技术的发展趋势与应用前景

    四.语音识别遇到的困难 目前,语音识别研究工作进展缓慢,困难具体表现在: (一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难 ...

  4. 浅谈语音识别技术的发展趋势与应用前景

    一.语音识别技术定义 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键.二进制编 ...

  5. 语音识别技术的研究难点以及未来发展方向

    (文章来源:钛媒体) 目前,语音识别研究工作进展缓慢,困难具体表现在: (1)输入无法标准统一,比如各地方言的差异,每个人独有的发音习惯等,如下图所示,口腔中元音随着舌头部位的不同可以发出多种音调,如 ...

  6. 语音识别技术的原理及研究难点

    在我们的生活中,语言是传递信息最重要的方式,它能够让人们之间互相了解.人和机器之间的交互也是相同的道理,让机器人知道人类要做什么.怎么做.交互的方式有动作.文本或语音等等,其中语音交互越来越被重视,因 ...

  7. 语音识别技术迎风发展,未来五年规模将近300亿

    如今,随着科学技术的发展,人工智能行业快速崛起,成为各行各业转变的关键因素.作为其代表技术之一,语音识别也因此迎来火爆.所谓语音识别,即一种机器或程序通过接收声音,分析理解声音,并因此做出相关反应的技 ...

  8. 计算机图像处理的未来发展,探讨计算机图像处理技术的发展趋势与展望

    摘 要:随着我国科学技术的飞速发展,计算机已经在多个行业和领域实现应用和普及,对促进我国社会以及经济发展起到关键的推动作用.计算机图像处理技术与我国社会发展具有直接关系,因此,一定要注重此方面的研究和 ...

  9. 文本、语义和社交分析技术,未来几年市场发展趋势的预测

    文本.语义和社交分析技术依然有很大的创新和成长空间,对于新进入者和现有的玩家来说都是如此,未来几年市场发展趋势的预测,具体如下: 一.多语言是王道 目前文本语义分析还是以英语为为主,但是机器学习和机器 ...

最新文章

  1. 算法-------二分法查找
  2. 让dwz 的表格或者表单显示竖滚动条的代码
  3. 三方会谈进行时,Uber旧金山无人车已被叫停
  4. 创建多线程的4种方式
  5. Eclipse里不同的project,右键选择属性property facet里看到的list 内容是否相同
  6. Blazor+Dapr+K8s微服务之基于WSL安装K8s集群并部署微服务
  7. kafka 消费端 api_在消费者的眼中:您真的需要为您的API提供客户端库吗?
  8. ext 解析后台返回response.responseText中的数据
  9. Java8 Stream详解~Stream 创建
  10. Redis 持久化——AOF
  11. cad pu插件下载lisp_CAD自动编号lisp插件下载
  12. syntaxhighlighter 代码高亮 - 插件化
  13. 黑马程序员-OC-内存管理(非ARC模式下)
  14. 2020年1月1日起,谷歌 Patch Rewards 计划将降低准入门槛,提升开源项目的安全性...
  15. PHP 三种方式实现链式操作
  16. SVN,HG,GIT 命令说明
  17. matlab 给参数赋值,未对输出参数赋值 求大神帮忙解惑
  18. 普利策奖《哥德尔、埃舍尔、巴赫——集异璧之大成》
  19. 五款不错的Web前端开发工具,对小白来说完全够用了!
  20. ps知识的教学 day01

热门文章

  1. 狗屎的Easy UI ,链接页面出错!搞了我一上午!
  2. jquery proxy delegate 的比较
  3. CCF201503-5 最小花费(100分解题链接)
  4. HDU3068 最长回文【manacher算法】
  5. 字节跳动杯2018中国大学生程序设计竞赛-女生专场题解
  6. UVA12279 LA4853 Emoogle Balance【水题】
  7. POJ NOI MATH-7648 蓄水池水管问题
  8. CCF201409试题
  9. 九章算术卷第二 粟米
  10. 「兵以诈立」—— 孙子的兵法