(文章来源:AI科技大本营)

语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有很多难点没有突破,比如多轮交互、多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术。新的技术应该彻底解决这些问题,让机器听觉远超人类的感知能力。这不能仅仅只是算法的进步,需要整个产业链的共同技术升级,包括更为先进的传感器和算力更强的芯片。

单从远场语音识别技术来看,仍然存在很多挑战,包括:

(1)回声消除技术。由于喇叭非线性失真的存在,单纯依靠信号处理手段很难将回声消除干净,这也阻碍了语音交互系统的推广,现有的基于深度学习的回声消除技术都没有考虑相位信息,直接求取的是各个频带上的增益,能否利用深度学习将非线性失真进行拟合,同时结合信号处理手段可能是一个好的方向。

(2)噪声下的语音识别仍有待突破。信号处理擅长处理线性问题,深度学习擅长处理非线性问题,而实际问题一定是线性和非线性的叠加,因此一定是两者融合才有可能更好地解决噪声下的语音识别问题。

(3)上述两个问题的共性是目前的深度学习仅用到了语音信号各个频带的能量信息,而忽略了语音信号的相位信息,尤其是对于多通道而言,如何让深度学习更好的利用相位信息可能是未来的一个方向。

(4)另外,在较少数据量的情况下,如何通过迁移学习得到一个好的声学模型也是研究的热点方向。例如方言识别,若有一个比较好的普通话声学模型,如何利用少量的方言数据得到一个好的方言声学模型,如果做到这点将极大扩展语音识别的应用范畴。这方面已经取得了一些进展,但更多的是一些训练技巧,距离终极目标还有一定差距。

(5)语音识别的目的是让机器可以理解人类,因此转换成文字并不是最终的目的。如何将语音识别和语义理解结合起来可能是未来更为重要的一个方向。语音识别里的 LSTM 已经考虑了语音的历史时刻信息,但语义理解需要更多的历史信息才能有帮助,因此如何将更多上下文会话信息传递给语音识别引擎是一个难题。

(6)让机器听懂人类语言,仅靠声音信息还不够,“声光电热力磁”这些物理传感手段,下一步必然都要融合在一起,只有这样机器才能感知世界的真实信息,这是机器能够学习人类知识的前提条件。而且,机器必然要超越人类的五官,能够看到人类看不到的世界,听到人类听不到的世界。

打开APP精彩内容

点击阅读全文

未来语音识别技术的发展趋势会如何相关推荐

  1. 未来语音识别技术的发展趋势将会怎样

    (文章来源:CSDN) 语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有很多难点没有突破,比如多轮交互.多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术.新的技术应该彻底解决这些 ...

  2. 浅谈语音识别技术的发展趋势与应用前景 - 全文

    一.语音识别技术定义 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键.二进制编 ...

  3. 语音识别遇到的困难 - 浅谈语音识别技术的发展趋势与应用前景

    四.语音识别遇到的困难 目前,语音识别研究工作进展缓慢,困难具体表现在: (一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难 ...

  4. 浅谈语音识别技术的发展趋势与应用前景

    一.语音识别技术定义 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键.二进制编 ...

  5. 语音识别技术的研究难点以及未来发展方向

    (文章来源:钛媒体) 目前,语音识别研究工作进展缓慢,困难具体表现在: (1)输入无法标准统一,比如各地方言的差异,每个人独有的发音习惯等,如下图所示,口腔中元音随着舌头部位的不同可以发出多种音调,如 ...

  6. 语音识别技术的原理及研究难点

    在我们的生活中,语言是传递信息最重要的方式,它能够让人们之间互相了解.人和机器之间的交互也是相同的道理,让机器人知道人类要做什么.怎么做.交互的方式有动作.文本或语音等等,其中语音交互越来越被重视,因 ...

  7. 语音识别技术迎风发展,未来五年规模将近300亿

    如今,随着科学技术的发展,人工智能行业快速崛起,成为各行各业转变的关键因素.作为其代表技术之一,语音识别也因此迎来火爆.所谓语音识别,即一种机器或程序通过接收声音,分析理解声音,并因此做出相关反应的技 ...

  8. 计算机图像处理的未来发展,探讨计算机图像处理技术的发展趋势与展望

    摘 要:随着我国科学技术的飞速发展,计算机已经在多个行业和领域实现应用和普及,对促进我国社会以及经济发展起到关键的推动作用.计算机图像处理技术与我国社会发展具有直接关系,因此,一定要注重此方面的研究和 ...

  9. 文本、语义和社交分析技术,未来几年市场发展趋势的预测

    文本.语义和社交分析技术依然有很大的创新和成长空间,对于新进入者和现有的玩家来说都是如此,未来几年市场发展趋势的预测,具体如下: 一.多语言是王道 目前文本语义分析还是以英语为为主,但是机器学习和机器 ...

最新文章

  1. Gartner发布2022年七大安全和风险管理趋势
  2. android jobb工具,android – 是什么导致jobb工具抛出FAT Full IOException?
  3. Ubuntu 左边栏和顶栏都不见了,ctrl+alt+t 也调用不出terminal
  4. RDD partitioner入门详解
  5. 如何提升Wi-Fi速度 学会更改无线信道
  6. jdbc连接池的数量设置怎么才合适?
  7. Vista 如何关闭UAC(用户帐户控制)
  8. python 随机生成6位数字+字母的密码
  9. Banner是什么意思,网站banner设计与广告怎么做?
  10. java中finish什么意思,finish是什么意思(释义详解一览)
  11. 在线制作h5——上帝的礼物
  12. 【转】英文论文审稿意见汇总
  13. 小白学python.1
  14. APP优化篇——优化关键评估指标
  15. python导入模块不执行_python 不执行
  16. 美食小吃加盟网站源码 餐饮奶茶招商加盟类网站pbootcms模板 带安装视频教程【已测试】
  17. python数字转中文大写_Python 人民币数字转汉字表示 —— 大写金额
  18. Linux中常用软件安装(基于Ubuntu)
  19. 【Tools】Json转Excel 与 Excel转Json(最简单基础的实现演示)
  20. CASIA数据集格式转化代码

热门文章

  1. 1030: [JSOI2007]文本生成器 ac自动机+dp
  2. html 常用button事件
  3. 很实用的一个ext表格,具有很好的分页功能。
  4. windows7 iis安装 Windows Modules Installer服务无法启动
  5. svm各种工具箱(先放着了,省的找起来麻烦^.^)
  6. 升级到ASP.NET2.0之后的疑问
  7. UVA11347 Multifactorials【阶乘+组合】
  8. Bailian2689 大小写字母互换【文本】(POJ NOI0107-14)
  9. 深度学习学界业界进展调研
  10. SSL 延迟与 Http、Https