声音也是识别对象的一种重要数据源。其中根据声音来识别声音所处的环境也是语音识别的研究内容之一。今天对NIPS 2016年的这篇文章SoundNet: Learning Sound Representations from Unlabeled Video,(论文项目所在地址为:https://projects.csail.mit.edu/soundnet/)进行了复现,觉得这篇文章的做法挺有意义的。

1、论文原理

从题目中可以看出,其主要是从无标记的视频数据中来学习声音的相关信息。由于视频中包含图像和语音,由于图像现在的场景识别已经可以做到比较准确,因此根据识别的环境和语音之间的映射学习,从而可以学习得到语音与场景环境之间的对应关系。

论文的主要原理如下图所示:

即通过SoundNet架构与ImageNet,Place CNN等进行联合训练。首先视频数据集中的每个视频都切分成两部分,一部分为音频,一部分为RGB图像帧。视觉识别网络采用在ImageNet和Places两个大型图像数据集上的预训练VGG模型。ImageNet和Places都是图像识别领域的大型数据集,其中Imagenet是图像目标分类数据集,Places是图像场景分类数据集。将从视频中分割出来的RGB帧输入到预训练的VGG模型(代码中正常使用ResNet34)中,得到的输出结果作为声音识别网络的监督信息。声音识别网络采用8层的全卷积结构,使用从视频中提取出的声音时间序列作为网络的输入,损失函数采用KL-divergence。

2、论文实践:

(1) 给定一个声音,识别声音所在场景,可以识别出为火车相关的环境场景;

(2) 对给定一首歌曲,可以识别其发生场景为艺术厅

SoundNet:根据声音来识别场景环境实践相关推荐

  1. 分享实录 | 单人开发场景下的测试环境实践

    在软件研发过程中,"测试环境"是部署最频繁.也是开发者使用最频繁的一种运行环境,稳定而易用的测试环境能够极大提高开发者的工作效率和幸福感.为更好的将阿里巴巴在测试环境管理方面的实践 ...

  2. 单人开发场景下的测试环境实践

    在软件研发过程中,"测试环境"是部署最频繁.也是开发者使用最频繁的一种运行环境,稳定而易用的测试环境能够极大提高开发者的工作效率和幸福感.为更好的将阿里巴巴在测试环境管理方面的实践 ...

  3. 神策数据房东雨:精准推荐的场景和实践

    以下内容根据神策数据架构师房东雨在神策 2018 数据驱动大会现场,题为<推荐的场景与实践>演讲内容整理所得. 本文主要内容包括: 推荐的概念与主要场景 推荐的流程 推荐的方法 推荐在很早 ...

  4. 业界分享 | Embedding技术在商业搜索与推荐场景的实践

    Embedding对文本语义.用户行为进行向量化,通过数学计算表达广告和用户关系,具备易表示.易运算和易推广的特点. 从C端视角来看,58商业将Embedding作为广告的一种理解方式,使我们精确理解 ...

  5. TiDB 在安信证券资产中心与极速交易场景的实践

    本文根据安信证券资深数据库架构师李轲在 DevCon 2022 上的分享整理,主要讲述了 TiDB 在安信证券的资产中心与极速交易场景的实践经验.主要包括三部分内容:第一是国产化信创改造总体情况,第二 ...

  6. TiDB 在金融行业关键业务场景的实践(下篇)

    TiDB 作为一款高效稳定的开源分布式数据库,在国内外的银行.证券.保险.在线支付和金融科技行业得到了普遍应用,并在约 20 多种不同的金融业务场景中支撑着用户的关键计算.在TiDB 在金融行业关键业 ...

  7. 效率提升:物理机管理使用场景和实践

    本文将分享物理机管理使用场景和实践,分别是物理机相关背景.平台物理机管理架构的介绍,并结合实际场景,进行装机实践,演示物理机功能. 背景介绍 可以把物理机想象成机房的服务器,物理机都有较好的硬件配置, ...

  8. 网易云信亮相 GIAC 全球互联网架构大会,解密新一代音视频架构在元宇宙场景的实践...

    7 月 22 日,2022 GIAC 全球互联网架构大会在深圳隆重召开.GIAC 是中国地区规模最大的技术会议之一,专门面向架构师.技术负责人及高端技术从业人员等人群. 作为互联网技术的年度盛会,大会 ...

  9. 人脸识别考勤应用实践

    人脸识别考勤应用实践                 前言  生物识别技术的发展,特别是人脸特征作人员身份特征的人脸生物识别技术的发展,为广大企业提供了人员考勤管理解决方案 .现以本人所在大型外资企业 ...

最新文章

  1. 利用UltraScale和UltraScale+FPGA和MPSOC加速DSP设计生产力
  2. 文本的DES加密 MD5散列值 DSA的数字签名
  3. 软件测试响应时间原则,对于性能测试结果的分析原则
  4. arp_ignore和arp_announce内核参数
  5. android11通知栏按钮,android开发(11) 消息栏通知(Notification)
  6. Docker 之 Dockerfile 的概述与使用
  7. 数据结构实验之图论八:欧拉回路
  8. linux mysql提交_MySQL 事务提交过程
  9. php写抢票脚本,火车票抢票python代码公开揭秘!
  10. 4.3.2模拟匹配的一种改价算法(KMP及KMP优化算法)
  11. what's the difference between atime, ctime and mtime
  12. Google比Baidu快(发一个无聊的帖)
  13. python和控制流程_Python基础之:Python中的流程控制
  14. javascript原生代码取单选框的值
  15. 鸟哥的linux基础学习实训教程
  16. 20HZ信号发生器电路图
  17. Adobe Acrobat Pro DC拆分PDF
  18. 系统——现有centos7操作系统制作为iso镜像文件
  19. 决策树系列(二)——基于决策树算法实现泰坦尼克号生还预测
  20. Android SystemUI 信号栏后添加信号图标

热门文章

  1. 看雪3万课程笔记-FRIDA高级API实用方法:Frida Hook Java(一)
  2. 2015最新iherb海淘攻略-图文新手教程-6月免邮
  3. 要访问1KB的内存为啥需要10位地址线,而不是13位?
  4. python爬取豆瓣影评
  5. [转] On the contrary, in contrast, on the other hand用法区别
  6. 多边形裁剪(Polygon Clipping) 1
  7. C语言采药动态规划,Vijos P1104 采药 动态规划
  8. 青岛大学计算机二级考试,2017年3月青岛大学计算机等级考试准考证打印时间
  9. JDK.8源码阅读项目搭建之记录
  10. Tarena - 分组查询