人的耳朵是一个非常精巧的声音处理系统。总体来说,声音引起鼓膜振动,经过听小骨传递到耳蜗后,形成神经脉冲传到大脑中形成声音感知。在这一过程中,耳蜗是物理振动转换成神经电信号的核心部件,很多人耳感知的特性就是在这里形成的。例如,当一个声音已经存在且音量较高时,我们将很难感知另一个音高差不多的声音。类似的,当两个强音之间夹杂一个短暂的低音或噪音,我们也很难察觉这些短暂变化的存在。这一现象称为人耳的掩蔽效应。这些感知特性和声音信号在耳蜗中的处理过程相关。声音在耳蜗中的传导是一个“频率选择”的过程,当传导到耳蜗的不同位置时对某一特定频率产生反应,这些反应互相叠加组合,从而形成了复杂的神经信号。

图1:人的内耳[1]

为描述这一感知过程,科学家们提出了一种称为传输线(Transmission Line, TL)的计算模型。这一模型将耳蜗分成若干段,每一段描述为一个差分方程。这一模型可以很精确地描述耳蜗的生理特性,可惜计算量太大,很难用到实际系统中。

近日,自然-机器智能语音杂志刊载了一篇论文[2],用机器学习方法解决了TL模型的计算问题。在这篇论文中,作者将耳蜗分成210段建立TL模型,然后利用一个称为CoNNear的卷积神经网络来近似TL模型的输出(图2)。实验表明,CoNNear可以对TL模型做很好的近似,而计算效率提高了2000倍。

图2:CoNNear训练示意图。给定一段语音,利用TL模型(龟速运行)生成耳蜗响应,这些响应作为目标来训练CoNNear(兔子模拟),使得网络可以模拟TL的输出

图3:CoNNear对TL的近似结果。

图3给出了CoNNear对TL的近似结果,其中第一行为原始声音,第二行为TL的输出(类似人耳的真实响应),第三行为CoNNear的近似结果,最后一行为TL和CoNNear预测的误差。可以看到,速度提高了2000倍的CoNNear在预测结果上和TL非常相似,验证了这一方法的有效性。

CoNNear带来的一个启发是利用机器学习,一些计算很复杂的传统方法有可能用神经网络进行合理的近似,从而极大提高传统方法的应用范围。同时,传统方法的本身理论基础又为神经网络学习提供了约束,从而提高神经网络的可信性。

语音之家助力AI语音开发者的社区

【智能语音】神经网络如何模拟人耳听觉机制?相关推荐

  1. 音频声学基础三,人耳听觉特性

    1.人耳感受声音三要素 2.人耳听觉效应 3.3D音频基础 4.进阶 第三部分完结.

  2. 神经网络怎样模拟人的思考?

    "神经网络怎样模拟人的思考?" 早前参加了开源中国的高手问答活动,大家提了很多问题,一一看下来,我很有感触,大家在入门机器学习时遇到的困扰都并不孤独.我把这些代表性问题整理成了一篇 ...

  3. 为什么越来越多的人选择智能语音外呼机器人项目创业?

    随着人工智能技术的不断深入发展,我们有理由相信智能语音外呼机器人也将会越来越趋于真人模式,可以预见将来的传统电话销售终将会被智能语音外呼机器人取代!在技术的发展下智能语音外呼机器人的市场也将会逐渐扩大 ...

  4. 钉钉机器人关键词应答_除了用于电销,智能语音机器人可以应用哪些地方?

    之前的文章探讨的是智能语音机器人在电销行业的应用,然而在实际的场景中,电销行业的应用只是大家所熟知的行业之一. 对比于人工电销,使用智能语音机器人有着诸多优势,例如:工作效率高.意向筛选.电话录音并转 ...

  5. 【语音识别】基于matlab GUI MFCC+VAD端点检测智能语音门禁系统【含Matlab源码 451期】

    ⛄一.MFCC简介 1 引言 语音识别是一种模式识别, 就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术.语音识别技术主要包括特征提取技术.模式匹配准则及模型训练技术3个方面.目前一 ...

  6. 用计算机代替人说话,人工智能是用计算机来模拟人的智能,代替人的部分脑力劳动...

    人工智能是用计算机来模拟人的智能,代替人的部分脑力劳动.人工智能既是计算机当前的重要应用领域,也是今后计算机发展的主要方向.人工智能应用中所要研究和解决的问题难度很大,均是需要进行判断及推理的智能性问 ...

  7. 【语音增强】基于matlab人耳掩蔽效应语音增强【含Matlab源码 428期】

    ⛄一.获取代码方式 获取代码方式1: 完整代码已上传我的资源:[语音增强]基于matlab人耳掩蔽效应语音增强[含Matlab源码 428期] 点击上面蓝色字体,直接付费下载,即可. 获取代码方式2: ...

  8. 电话机器人智能语音机器人之:语音识别,让电脑听懂人说话

    通过pyaudio,已经可以将人说的话保存成声音文件. 但是,我们还需要计算机可以听懂人说的话,并执行相应的命令. 在计算机科学里,这被称为"语音识别技术",语音识别技术就是让机器 ...

  9. 微信语音麦克风静音_智能语音专题(二):语音信号处理

    <智能语音>专题第二章:语音信号处理.此篇文章不会讲解傅里叶.模数.数模变化之类的技术性原理,重点在于讲解语音的场景.语音信号处理要做的事情,相关的技术手段,能够解决的问题等等.语音信号处 ...

最新文章

  1. GBDT和GNN结合,结果怎么样?
  2. Exchange 2013学习(八),Outlook Web App offline
  3. php 命名空间 create_function,PHP create_function()注入命令执行漏洞
  4. python 中readline 和readlines的区别
  5. mybatis 中 Example 的使用 :条件查询、排序、分页(三种分页方式 : RowBounds、PageHelpler 、limit )
  6. C语言工作笔记-函数指针的使用(补充C回调系统)
  7. SAP License:SAP不便解决的问题之六——采购组在审批策略中的作用
  8. linux 查看内存条详情命令
  9. smartq ten3 android4.2 v1.1,全线升级Android 4.2 智器平板新体验
  10. 软考 系统架构设计师考试大纲
  11. 来LAMP兄弟连的日子
  12. 淘宝客户端安全生产体系建设
  13. 业务知识 - 金融知识笔记
  14. Java抽象类、接口理解
  15. IOS之 上传App预览和截屏规范
  16. Unity开发笔记(五)—— 制作第四个小游戏《坦克大战》
  17. 【xss-labs】闯关记录16~18
  18. [4G+5G专题-140]: 终端 - 5G终端主要的产品形态 - 行业终端
  19. 【云栖大会】国家天文台结盟阿里云:计算100亿光年的数字宇宙
  20. 国内平台游戏借苹果iOS爆发:游戏开发产值过亿

热门文章

  1. jQuery iCheck Plugin 下处理单选按钮值切换
  2. 新浪微博的XSS漏洞攻击过程详解
  3. 基于web的学生出国留学管理系统
  4. 回溯法—哈密顿回路问题
  5. 无限风光 : 近来地形算法学习小结【转】
  6. 纪念我已经逝去的2018
  7. WPF TextBox笔刷特效
  8. 基于springboot的婚纱摄影网站
  9. DVSDK-Codec Engine
  10. 公司花百万年薪从阿里挖了个P8程序员,竟然是“水货”?