目前运用CNN做声音识别遇到的问题

  • 前端操作
  • 后端剪辑
  • CNN操作
  • 猜想部分验证
  • 求助

前端操作

前端录音的声音传到服务端,声音长度为5S,没有做端点检测,只有阈值触发,触发后录音5S。

后端剪辑

对获得的音频进行剪辑成十份,重叠0.5S

CNN操作

目前识别效果极差,在训练集里面不管是训练还是测试精度都相当可人,
并且确定没有过拟合现象,如用同一数据集中未进行训练的数据去测试效果一样很好,识别度相当高,准确。
因此,现在有了以下猜测:
1、实际数据的环境音影响特别大。
2、音频剪辑问题,训练音频都在那一段音频的中间,且完整。
3、训练的cnn网络有问题,不适合实际运用。

猜想部分验证

1、实际录音和训练集之间的背景噪声肯定不一样,自然加噪后效果有部分进步,但不够明显。
2、手工剪辑音频,但测试识别结果还是会有错误,因此猜测第三步出错的可能性更大。
3、换多个测试集进行测试,发现语音测试比事件测试效果偏好,但还是有影响。

求助

现目前,感觉是网络训练有问题,或者数据集有问题,有没有大神用训练好的网络用实际声音做测试并且效果尚好的,麻烦指点一下。

关于cnn在语音识别、环境音识别中的实际运用问题相关推荐

  1. Connectionist Temporal Classification(CTC)、音识别模型小型综述和一个简易的语音识别模型的tensorflow实现

    CTC是一种端到端的语音识别技术,他避免了需要字或者音素级别的标注,只需要句子级别的标注就可以进行训练,感觉非常巧妙,也很符合神经网络浪潮人们的习惯.特别是LSTM+CTC相较于之前的DNN+HMM, ...

  2. 盘点语音识别技术在人工智能中的应用

    语音是人类最自然的交互方式.计算机发明之后,让机器能够"听懂"人类的语言,理解语言中的内在含义,并能做出正确的回答就成为了人们追求的目标.这个过程中主要涉及3种技术,即自动语音识别 ...

  3. 长语音识别_长文本语音识别_语音 识别 - 云+社区 - 腾讯云

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 录音文件识别请求,数据结构,android sdk,ios sdk,自学习模型,使 ...

  4. 本地语音识别_语音 识别_语音识别 - 云+社区 - 腾讯云

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 录音文件识别请求,数据结构,android sdk,ios sdk,自学习模型,使 ...

  5. 依图在实时音视频中语音处理的挑战丨RTC Dev Meetup

    前言 「语音处理」是实时互动领域中非常重要的一个场景,在声网发起的「RTC Dev Meetup丨语音处理在实时互动领域的技术实践和应用」 活动中,来自百度.寰宇科技和依图的技术专家,围绕该话题进行了 ...

  6. CNN(卷积神经网络)识别图形验证码(全网最通俗易懂,最全面的讲解)

    这里面大多资料均为网上参阅,参考资料过多未能记住您的文章地址望见谅,如涉及您的文章,本文未声明的即可留言,我会将您的原文地址引入. 一.前言 项目代码:https://github.com/bao17 ...

  7. 基于语音识别、音文同步、图像OCR的字幕解决方案HtwMedia介绍

    背景介绍 俗话说,"好记性不如乱笔头",这充分说明了文字归档的重要性.如今随着微信.抖音等移动端app的使用越来越广,人们生产音.视频内容也越来越便捷.而相比语音和视频而言,文字具 ...

  8. 从语音识别到语义识别,中间还有多长的路要走?-模拟/电源-与非网

    最近科技圈刮起一股收购风,前面博通收购高通还在如火如荼的进行,这周苹果就宣布收购音乐识别软件 Shazam.Shazam 这个软件,通过手机麦克风收录音频片段,能够识别音乐.电影.电视节目甚至是广告. ...

  9. Python Tensorflow + CNN + Opencv 英雄联盟小地图识别,LOL Minimap Scanner

    Tensorflow + CNN + Opencv 英雄联盟小地图识别,LOL Minimap Scanner 本项目代码的展示 简介 思路 第一步:图像处理 1. 获取图像并转换 2. 过滤出图像中 ...

最新文章

  1. 第三天:Vue的组件化
  2. svn提示服务器禁止修改目录,SVN Eclipse插件中如何忽略对服务器已有文件修改后的提交...
  3. java并发编程_Java并发编程之 synchronized
  4. 48.聊一聊constexpr变量
  5. 一天搞定CSS:初识css--01
  6. nssl1317-灵魂分流药剂【分组背包,二维费用背包】
  7. 1021 个位数统计 (15 分
  8. sqlplus 镜像_【Docker】拉取Oracle 11g镜像配置
  9. windows下执行testng用例
  10. SQL正则表达式的妙用
  11. python学习笔记(十二)-- if __name__ == '__main__'
  12. 新闻:西部数据拟200亿美元收购原东芝存储 《创新者的窘境》硬盘发展史
  13. 【数据结构Python描述】自底向上构建二叉堆实现及其O(n)时间复杂度分析
  14. 关于 Kubernetes中Pod健康检测和服务可用性检查的一些笔记(LivenessProbe+ReadinessProbe)
  15. 熊猫烧香、威金的解决办法
  16. 从源代码开始构建Ogre图文教程(Ogre 1.8 Source + VS2010)
  17. 果壳格言——偶像的力量近在眼前
  18. ubuntu14.04安装搜狗输入法
  19. OWASP ZAP安装kali
  20. 国内下载vscode速度慢解决

热门文章

  1. springboot基于web儿童教育网站毕业设计源码111123
  2. FAT32文件系统转NTFS文件系统
  3. Java中yyyy-MM-dd HH:mm:ss.SSSSSS日期格式精确到毫秒
  4. 月入8千,每天2小时在家做steam搬砖
  5. 拟合算法(模型+代码)
  6. 解决VirtualBox只能安装32位系统的问题
  7. 国际大会演讲ppt_如何在会议或活动中接受技术演讲
  8. 海蜘蛛路由免费版也可以看流量
  9. linux ls -al 各项,linux:ls、ls -l、ls -al区别 示例
  10. DDR Layout Guide-DDR布线规则与过程