Sound Event Detection: A Tutorial
热爱之所以有力量就在于,你坚守它就好,永远不要去想它会有什么结果。
目录
前言
二、声音事件检测的挑战
三、声音事件检测通用的机器学习方法
四、数据
五、声音事件检测的信号处理方法
A.数据增强
B、特征表示
六、基于机器学习的声音事件检测
A.CRNN
B.先进的方法
七、性能评估
八、未来展望
总结
前言
这里是对《Sound Event Detection: A Tutorial》做的笔记。
论文地址:https://arxiv.org/pdf/2107.05463.pdf
一、声音事件检测的简单介绍
声音事件检测的目的就是识别出一个音频中声音事件的种类,以及检测出声音事件发生和结束的时间。如下图所示:
二、声音事件检测的挑战
目前声音事件检测存在许多挑战,例如:
1、音事件有非常不同的声学特征,有些声音很短,比如枪声,有些声音很长,比如说话声等等。
2、在声音事件检测的实际应用中,需要检测的声音距离麦克风很远,导致麦克风接收到的目标事件的声压级低于环境中发生的其他声音的声压级,增加了检测的难度。
3、生活中发生的声音事件通常是多音的,意味着多个声音事件会在同一时间发生,也增加了检测的难度。
4、音频数据量少,并且标注困难,耗时大。导致目前音频数据集无标签的数据多,有标签的数据很少。
三、声音事件检测通用的机器学习方法
处理声音事件检测任务的主要方法是基于监督学习的,下图展示了一个用于声音事件检测的监督学习的通用分类系统。
正如上图所示,在学习阶段,系统学习音频信号中提取的特征和帧级别的分类标签之间的关系。分类标签被表示为一个二进制矩阵,其中每个元素表示在某帧内是否处于active状态,若处于active状态,则为1,反之,为0。在测试阶段,系统接收从测试音频提取的特征,从而得到每帧的分类结果。对于声学模型,声音事件检测的性能随着深度学习的发展有了很大的提升。
四、数据
按照标签进行分类,目前声音事件检测的数据可以分为三类:一个是无标签数据, 一个是弱标签数据,即只有声音事件的分类,没有时间信息,最后是强标签数据,既有声音事件的分类,也有声音事件的起止事件。现在有一些公开的数据集可以使用,如下表所示:
五、声音事件检测的信号处理方法
A.数据增强
time stretching 时间拉伸
pitch shifting 音高变换
dynamic range compression 动态范围拉伸
sub-frame time shifting 子帧时间偏移
block mixing 块混合
mixup 混音
B、特征表示
1、MFCC:声音事件检测最常用的特征是logmel能量,它使用感知激励的频率和振幅标度表示音频信号能量。
2、constant-Q transform (CQT):它的频率轴为对数。CQT在较低频率下提供更好的光谱分辨率,在较高频率下提供更好的时间分辨率。
3、也可以使用在不同分析分辨率下计算的光谱图:使用具有不同时间或频率分辨率的表示法的动机是假设不同类型的声音可能受益于不同频率或时间分辨率的建模,例如短声音,例如门砰砰声,受益于分析中的高时间分辨率,而鸟类歌唱等声音的谐波成分可以用高分辨率的频率更好地表示。
4、feature learning
六、基于机器学习的声音事件检测
深度神经网络在图像分类和语音识别等许多领域都取得了巨大的进步,而且正如近年来观察到的那样,深度神经网络现在也是环境声音分析和分类的主要方法。它们的主要缺点是需要大量数据进行培训。对大型数据集的这种需求对于声音事件检测来说是一个问题,因为该领域仍然缺乏具有强标记数据的大型数据集。涉及弱标签和迁移学习的高级培训策略提供了适当的解决方案,以应对数据中的缺陷,但一般的系统架构通常不会发生显著变化。
A.CRNN
用于声音事件检测的通用网络体系结构是卷积递归神经网络(CRNN),CNN做为特征提取器,RNN可以依据近乎无限长的上下文信息做出逐帧的决策。下图展示了一个由三个卷积块组成的CRNN体系结构,CNN后面接两个递归层和两个全连接层。
如上图所示,一个卷积块包含一个卷积层,一个非线性层和一个池化层。为了保持音频事件检测的时间精度在做池化运算时,只沿着频率轴进行最大池化,对时间轴不做改动,这样使得整个系统的时间分辨率保持不变。为了防止使用标准的RNN会出现梯度爆炸或者梯度消失的问题,这里使用了双向的GRU。全连接层的作用是根据最后一个循环层的输出产生声音事件活动概率。在输出层之前可以有许多使用sigmoid单元的全连接层,输出层是根据任务选择的(例如,用于分类的softmax)。在这种情况下,输出层由sigmoid单元组成,这些单元分别为每个目标事件类提供概率。由于SED中的预期输出是每个事件类的二进制激活指示器序列,因此网络输出被二值化。二值化的阈值可以简单地选择为0.5,或者可以根据数据的统计信息针对问题进行优化。此外,生成的二进制序列可以进行后处理以形成事件实例。
B.先进的方法
迁移学习
在训练的时候使用弱标签或带有噪声的标签
多实例学习
teacher-student models
基于attention机制的网络
七、性能评估
1、基于segment的评估
2、基于event的评估
八、未来展望
1、active learning
2、 federated learning
3、zero-shot learning
4、model adaptation
总结
以上就是对改论文的简单摘录啦!
Sound Event Detection: A Tutorial相关推荐
- Sound Event Detection: A Tutorial 学习笔记
原文链接 目录 一.日常环境中的声音世界检测 二.声音事件监测的挑战 三.通用的机器学习方法 四.数据 五.信号处理方法 A 数据增强 B 特征表示 六.SED 机器学习 A CRNN B 先进方法 ...
- (二十六)【2021 WWW】Knowledge-Preserving Incremental Social Event Detection via Heterogeneous GNNs
题目: Knowledge-Preserving Incremental Social Event Detection via Heterogeneous GNNs 中文题目: 基于异构gnn的知识保 ...
- (二十四)【2021 ACL】OntoED: Low-resource Event Detection with Ontology Embedding
题目: OntoED: Low-resource Event Detection with Ontology Embedding 论文链接: https://arxiv.org/abs/2105.10 ...
- 论文笔记 EMNLP 2020|Edge-Enhanced Graph Convolution Networks for Event Detection with Syntactic Relation
文章目录 1 简介 1.1 动机 1.2 创新 2 背景知识 3 方法 4 实验 1 简介 论文题目:Edge-Enhanced Graph Convolution Networks for Even ...
- 论文笔记 EMNLP 2021|Treasures Outside Contexts: Improving Event Detection via Global Statistics
文章目录 1 简介 1.1 动机 1.2 创新 2 方法 2.1 语义特征提取器 2.2 统计特征提取器 3 实验 1 简介 论文题目:Treasures Outside Contexts: Impr ...
- 论文笔记 NAACL findings 2022|Zero-Shot Event Detection Based on Ordered Contrastive Learning and Prompt-
文章目录 1 简介 1.1 动机 1.2 创新 2 方法 2.1 Contrastive sample generator 2.2 Event encoder 2.3 Ordered contrast ...
- 论文笔记 EMNLP 2021|Modeling Document-Level Context for Event Detection via Important Context Selection
文章目录 1 简介 1.1 创新 2 方法 2.1 预测模型 2.2 上下文选择 2.3 训练 3 实验 1 简介 论文题目:Modeling Document-Level Context for E ...
- Saliency as Evidence: Event Detection with Trigger Saliency Attribution 论文解读
Saliency as Evidence: Event Detection with Trigger Saliency Attribution 论文:https://aclanthology.org/ ...
- 阅读笔记——2019_004 A SURVEY OF TECHNIQUES FOR EVENT DETECTION IN TWITTER
A SURVEY OF TECHNIQUES FOR EVENT DETECTION IN TWITTER 这篇文章是在阅读笔记003的参考文献中溯源而得,文章年限比较久了,但其中的一些事件检测技术还 ...
最新文章
- ,改变LI背景颜色与背景图片
- ipython 提示python已停止运行_你可能不知道的iPython使用技巧
- html页面调用存储过程,用WebBrowser实现HTML界面的应用
- 最小生成树计数(HYSBZ-1016)(简化版实现)
- 尚硅谷springboot笔记_dubbo笔记(一、基础知识)
- 私有CA的创建和证书的申请
- python的匿名函数返回值_Python匿名函数返回值输出问题望指点
- GAN能合成2k高清图了!还能手动改细节 | 论文+代码,英伟达出品
- 【数据结构笔记32】排序算法概述、简单排序(冒泡排序、插入排序)、逆序对
- 北理珠计算机学院罗晓莹,“职”等你来 | 计算机职业发展中心2020年见面大会,我们如期相遇~...
- 基于matlab的高等数学,基于matlab的高等数学实验详解.ppt
- 需要实战项目的看过来: 黑马最新java《十次方》社交项目 请仔细看!
- 华三模拟器(路由器)实现ipsec穿越NAT实验
- java xml注释多行_如何在XML中注释单行?
- 用Matlab筛选mirbase,一种基于miRBase数据库的植物有参的miRNA数据分析方法与流程...
- 设备台式计算机显示叹号,台式电脑出现叹号不能上网怎么办_台式机电脑出现感叹号不能上网的处理方法-系统城...
- 热插拔技术详解(上)
- 基于注意力机制的多尺度车辆行人检测算法
- hosts文件位置在哪里_hosts文件怎么修复
- vue v-modle实现组件之间的动态传值
热门文章
- YOLOv5-Lite:Repvgg重参化对YOLO工业落地的实验和思考
- Android 应用内连接指定 WIFI
- (五)比赛中的CV算法(下)目标检测终章:Vision Transformer
- lInux常用命令上(文件、远程管理相关)
- Java游戏心得 - 一口咬不到馅儿
- 计算机视觉英文介绍_计算机视觉介绍
- 淘宝电商数据客户价值分析
- 优化无限制的下拉加载新思路
- stepbystep记录在30岁转型IT的自学之路
- 必应词典手机版(IOS版)与有道词典(IOS版)之软件分析【功能篇】【用户体验篇】...