SoundNet:根据声音来识别场景环境实践
声音也是识别对象的一种重要数据源。其中根据声音来识别声音所处的环境也是语音识别的研究内容之一。今天对NIPS 2016年的这篇文章SoundNet: Learning Sound Representations from Unlabeled Video,(论文项目所在地址为:https://projects.csail.mit.edu/soundnet/)进行了复现,觉得这篇文章的做法挺有意义的。
1、论文原理
从题目中可以看出,其主要是从无标记的视频数据中来学习声音的相关信息。由于视频中包含图像和语音,由于图像现在的场景识别已经可以做到比较准确,因此根据识别的环境和语音之间的映射学习,从而可以学习得到语音与场景环境之间的对应关系。
论文的主要原理如下图所示:
即通过SoundNet架构与ImageNet,Place CNN等进行联合训练。首先视频数据集中的每个视频都切分成两部分,一部分为音频,一部分为RGB图像帧。视觉识别网络采用在ImageNet和Places两个大型图像数据集上的预训练VGG模型。ImageNet和Places都是图像识别领域的大型数据集,其中Imagenet是图像目标分类数据集,Places是图像场景分类数据集。将从视频中分割出来的RGB帧输入到预训练的VGG模型(代码中正常使用ResNet34)中,得到的输出结果作为声音识别网络的监督信息。声音识别网络采用8层的全卷积结构,使用从视频中提取出的声音时间序列作为网络的输入,损失函数采用KL-divergence。
2、论文实践:
(1) 给定一个声音,识别声音所在场景,可以识别出为火车相关的环境场景;
(2) 对给定一首歌曲,可以识别其发生场景为艺术厅
SoundNet:根据声音来识别场景环境实践相关推荐
- 分享实录 | 单人开发场景下的测试环境实践
在软件研发过程中,"测试环境"是部署最频繁.也是开发者使用最频繁的一种运行环境,稳定而易用的测试环境能够极大提高开发者的工作效率和幸福感.为更好的将阿里巴巴在测试环境管理方面的实践 ...
- 单人开发场景下的测试环境实践
在软件研发过程中,"测试环境"是部署最频繁.也是开发者使用最频繁的一种运行环境,稳定而易用的测试环境能够极大提高开发者的工作效率和幸福感.为更好的将阿里巴巴在测试环境管理方面的实践 ...
- 神策数据房东雨:精准推荐的场景和实践
以下内容根据神策数据架构师房东雨在神策 2018 数据驱动大会现场,题为<推荐的场景与实践>演讲内容整理所得. 本文主要内容包括: 推荐的概念与主要场景 推荐的流程 推荐的方法 推荐在很早 ...
- 业界分享 | Embedding技术在商业搜索与推荐场景的实践
Embedding对文本语义.用户行为进行向量化,通过数学计算表达广告和用户关系,具备易表示.易运算和易推广的特点. 从C端视角来看,58商业将Embedding作为广告的一种理解方式,使我们精确理解 ...
- TiDB 在安信证券资产中心与极速交易场景的实践
本文根据安信证券资深数据库架构师李轲在 DevCon 2022 上的分享整理,主要讲述了 TiDB 在安信证券的资产中心与极速交易场景的实践经验.主要包括三部分内容:第一是国产化信创改造总体情况,第二 ...
- TiDB 在金融行业关键业务场景的实践(下篇)
TiDB 作为一款高效稳定的开源分布式数据库,在国内外的银行.证券.保险.在线支付和金融科技行业得到了普遍应用,并在约 20 多种不同的金融业务场景中支撑着用户的关键计算.在TiDB 在金融行业关键业 ...
- 效率提升:物理机管理使用场景和实践
本文将分享物理机管理使用场景和实践,分别是物理机相关背景.平台物理机管理架构的介绍,并结合实际场景,进行装机实践,演示物理机功能. 背景介绍 可以把物理机想象成机房的服务器,物理机都有较好的硬件配置, ...
- 网易云信亮相 GIAC 全球互联网架构大会,解密新一代音视频架构在元宇宙场景的实践...
7 月 22 日,2022 GIAC 全球互联网架构大会在深圳隆重召开.GIAC 是中国地区规模最大的技术会议之一,专门面向架构师.技术负责人及高端技术从业人员等人群. 作为互联网技术的年度盛会,大会 ...
- 人脸识别考勤应用实践
人脸识别考勤应用实践 前言 生物识别技术的发展,特别是人脸特征作人员身份特征的人脸生物识别技术的发展,为广大企业提供了人员考勤管理解决方案 .现以本人所在大型外资企业 ...
最新文章
- 利用UltraScale和UltraScale+FPGA和MPSOC加速DSP设计生产力
- 文本的DES加密 MD5散列值 DSA的数字签名
- 软件测试响应时间原则,对于性能测试结果的分析原则
- arp_ignore和arp_announce内核参数
- android11通知栏按钮,android开发(11) 消息栏通知(Notification)
- Docker 之 Dockerfile 的概述与使用
- 数据结构实验之图论八:欧拉回路
- linux mysql提交_MySQL 事务提交过程
- php写抢票脚本,火车票抢票python代码公开揭秘!
- 4.3.2模拟匹配的一种改价算法(KMP及KMP优化算法)
- what's the difference between atime, ctime and mtime
- Google比Baidu快(发一个无聊的帖)
- python和控制流程_Python基础之:Python中的流程控制
- javascript原生代码取单选框的值
- 鸟哥的linux基础学习实训教程
- 20HZ信号发生器电路图
- Adobe Acrobat Pro DC拆分PDF
- 系统——现有centos7操作系统制作为iso镜像文件
- 决策树系列(二)——基于决策树算法实现泰坦尼克号生还预测
- Android SystemUI 信号栏后添加信号图标
热门文章
- 看雪3万课程笔记-FRIDA高级API实用方法:Frida Hook Java(一)
- 2015最新iherb海淘攻略-图文新手教程-6月免邮
- 要访问1KB的内存为啥需要10位地址线,而不是13位?
- python爬取豆瓣影评
- [转] On the contrary, in contrast, on the other hand用法区别
- 多边形裁剪(Polygon Clipping) 1
- C语言采药动态规划,Vijos P1104 采药 动态规划
- 青岛大学计算机二级考试,2017年3月青岛大学计算机等级考试准考证打印时间
- JDK.8源码阅读项目搭建之记录
- Tarena - 分组查询