前言

  DCASE 2017继续通过比较使用公共可用数据集的不同方法来支持计算场景和事件分析方法的开发。

  声音带有大量有关我们日常环境和身体事件的信息。我们可以感受到我们所在的声音场景(繁忙的街道,办公室等),并且识别出各种声源(汽车通过,脚步声等)。开发用于自动提取信息的信号处理方法在多个应用中具有巨大的潜力,例如基于其音频内容搜索多媒体,使上下文感知移动设备,机器人,汽车等以及智能监控系统识别其环境中的活动使用声学信息。然而,仍然需要大量的研究来可靠地识别现实声音中的声音场景和个体声源,其中多个声音通常同时存在并被环境扭曲。

音频场景识别概述

  音频场景识别的目标:将测试记录(输入)分类为所提供的预定义类别之一,其描述了记录环境的一个环境,例如“park”,“home”,“office”。

音频数据集

  TUT声学场景2017数据集将用作任务的开发数据。数据集由来自各种声场的记录组成,具有不同的记录位置。 对于每个记录位置,捕获了3-5分钟的长音频记录。 然后将原始记录分割成长度为10秒的段。 这些音频段在单独的文件中提供。

  • 声场任务(15):

    • 公共汽车 - 乘汽车在城市(车辆)
    • 咖啡厅/餐厅 - 小咖啡厅/餐厅(室内)
    • 汽车驾驶或作为乘客旅行,在城市(车辆)
    • 市中心(室外)
    • 森林小径(户外)
    • 杂货店 - 中型杂货店(室内)
    • 家(室内)
    • 湖畔沙滩(室外)
    • 图书馆(室内)
    • 地铁站(室内)
    • 办公室 - 多人,典型工作日(室内)
    • 住宅区(室外)
    • 火车(行车,车辆)
    • 电车(行车,车辆)
    • 城市公园(室外)

      详细的数据集描述见DCASE 2016 任务1页面

  • 数据集说明

    • 该数据集于2015年6月至2017年1月期间由坦佩雷理工大学在芬兰收集。数据收集已获得欧洲研究理事会的资助。
    • 记录和注释程序
      对于所有的声场,记录被捕获在不同的位置:不同的街道,不同的公园,不同的家园。录音使用Soundman OKM II Klassik /演播室A3,驻极体双耳麦克风和使用44.1 kHz采样率和24位分辨率的Roland Edirol R-09波形录音机进行。麦克风专门用于看起来像戴耳机的耳机。因此,记录的音频与到达佩戴设备的人的人体听觉系统的声音非常相似。

    • 记录数据的后处理涉及与记录个人隐私有关的方面。对于在私人场所录制的音像材料,所有相关人员均获得书面同意。记录在公共场所的材料不需要同意,但内容被筛选,隐私侵权细分被淘汰。麦克风故障和音频失真被注释,并且注释被提供有数据。基于DCASE 2016的实验,消除训练中的误差区域不会影响最终的分类精度。评估集不包含任何此类音频错误。

  • 下载

    • 如果您使用提供的基线系统),则不需要下载数据集,因为系统将自动为您下载所需的数据集。

    • 开发数据集:https://zenodo.org/record/400515。或者使用单独文件方式分别下载

  • 任务设置

    • TUT声场2017数据集由两个子集组成:开发数据集和评估数据集。开发数据集由完整的TUT Acoustic Scenes 2016数据集(2016年挑战的开发和评估数据)组成。将数据划分为子集是基于原始记录的位置完成的,因此评估数据集包含类似音频场景的记录,但是来自不同的地理位置。从相同原始记录获得的所有段都包含在单个子集中 - 开发数据集或评估数据集。对于每个声场,开发数据集中有312段(52分钟的音频)。有关数据记录和注释程序的详细说明。

    • 开发数据集:为开发数据集提供了交叉验证设置,以使结果报告与此数据集统一。该设置由四个折叠组成,根据位置分配可用段。折叠在目录评估设置中提供数据集。所提供的设置的折叠1通过使用2016开发集作为训练子集和2016评估集作为测试子集来再现DCASE 2016挑战设置。

      重要提示:如果您没有使用提供的交叉验证设置,请注意从相同原始录制中提取的段。确保对于每个给定的折叠,来自相同位置的所有段必须在测试子集中的训练子集OR中。

    • 评估数据集:没有实质的评估数据集将在提交截止日期前一个月公布。完整的实地元数据将在DCASE 2017挑战和研讨会结束后公布。

  • 评估

    • 声场分类的得分将基于分类精度:正确分类的段数占总段数的比例。每个段被认为是独立的测试样本。评估在基线系统中自动完成。使用sed_eval toolbox进行评估。

基线系统

  基线系统旨在实现声场分类的基本方法,并在开发系统时为参与者提供一些比较点。所有任务的基准系统共享代码库,为所有任务实现非常相似的方法。当使用默认参数运行时,基准系统将下载所需的数据集并生成下面的结果

  基线系统基于使用对数梅尔带能量作为特征的多层感知器架构。使用5帧上下文,导致特征向量长度为​​200。使用这些特征,一个神经网络包含两层致密的50层隐藏单元和20%个辍学(dropout)单元,训练了200次。分类决策是基于softmax类型的网络输出层。基准系统文档中提供了详细的描述。基准系统包括使用精度作为度量的结果评估。

  基线系统使用Python(2.7和3.6版)实现。允许参与者在给定的基准系统之上构建系统。该系统具有数据集处理,存储/访问特征和模型所需的所有功能,并且对结果进行评估,使自己的需求更加容易。基线系统也是入门级研究人员的良好起点。

运行基线系统的运行结果

  • 基线系统指导手册和教程

基线系统介绍

  • 基准系统旨在降低参与DCASE挑战的障碍。它提供了一个简单的入门级方法,但是与现有技术系统相对较接近,为所有任务提供合理的性能。高端的表现让参与者找到挑战。

  • 在基线中,使用特定于应用程序的扩展,可以在任务间共享一个单一的低级方法。其主要思想是展示任务设置中的并行性,以及在系统开发过程中如何轻松地在任务之间跳转。

  • 主要基准系统实施以下方法:

    • 声学特征:在40ms窗口中提取具有20ms跳跃尺寸的熔融能量。

    • 机器学习:使用多层感知器(MLP)类型网络的神经网络方法(每层有50个神经元的2层,层间差异20%)。

    • 除此之外,还包括基于高斯混合模型的系统进行比较。

  • 该系统是为Python 2.7和Python 3.6开发的,它可以在Linux,Windows和Mac平台上使用。

系统框图:

基于多感知机的系统,DCASE 2017基线系统

  • 说明:选择基于多感知器的系统作为DCASE2017的基准系统。该系统的主要结构与现有的基于循环神经网络(RNN)和卷积神经网络(CNN)的现有技术系统相近,为进一步开发提供了良好的起点。该系统是围绕Keras实现的,这是一个用Python编写的高级神经网络API。Keras在多个计算后端之间工作,其中选择了Theano作为该系统。

  • 系统细节:

    • 声学特征:在具有20ms跳跃尺寸的40ms窗口中提取对数梅尔带能量。
    • 机器学习:使用多层感知器(MLP)类型网络的神经网络方法(2层,每层有50个神经元,层间差异20%)。
    • 系统参数

基于GMM的方法

  • 基于高斯混合模型的辅助(secondary)系统也包括在基线系统中,以便与文献中提出的传统系统进行比较。基于GMM的系统的实现非常类似于DCASE2016挑战任务1和任务3中使用的基准系统。有关DCASE2016所用系统的更多详细信息:

    Annamaria Mesaros, Toni Heittola, and Tuomas Virtanen, “TUT database for acoustic scene classification and sound event detection”. In 24th European Signal Processing Conference 2016 (EUSIPCO 2016). Budapest, Hungary, 2016.。

  • 系统细节:

  声学特征:20个MFCC静态系数(包括第0个)+ 20个增量MFCC系数(一阶导数)+ 20个加速度MFCC系数(二阶导数)= 60个值,在具有50%跳跃尺寸的40ms分析窗口中计算。
  机器学习:高斯混合模型,每类模型16个高斯(16 Gaussians per class model)。

  • 系统参数

  • 流程图

    详见网页中关于框图的详细介绍

  • 应用

    • 文件分类的平均准确度。
Overall Folds
system Accuracy 1 2 3 4
基于多感知机系统,2017年基线 74.8% 75.2% 75.3% 77.3% 71.3%
基于GMM 系统 74.1% 74.0% 76.0% 73.1% 73.2%

   场景分类结果

  • 安装(下载地址)

  该系统是为Python 2.7,Python 3.5和Python 3.6开发的。 该系统经过测试,可在Linux,Windows和MacOS平台上工作。可以安装官方CPython或使用一些基于它的Python发行版。 推荐使用新用户使用Anaconda Python发行版。

  在Windows上使用系统:基线系统使用相当长的目录路径,因为它将系统参数的32个字符的MD5哈希存储到目录名中。 某些Windows系统具有路径长度限制(最低260个字符),这是导致问题的。 为了避免与此相关的问题,请将系统尽可能靠近驱动器根目录安装。

DCASE 2017声场分类任务描述——数据集及基线系统相关推荐

  1. PaddleNLP基于ERNIR3.0文本分类:WOS数据集为例(层次分类)

    相关项目链接: Paddlenlp之UIE模型实战实体抽取任务[打车数据.快递单] Paddlenlp之UIE分类模型[以情感倾向分析新闻分类为例]含智能标注方案) 应用实践:分类模型大集成者[Pad ...

  2. Python使用matplotlib可视化安德鲁斯曲线、安德鲁斯曲线可以用来查看分类变量对于数据集是否具有判别性、区分性(Andrews Curve)

    Python使用matplotlib可视化安德鲁斯曲线.安德鲁斯曲线可以用来查看分类变量对于数据集是否具有判别性.区分性(Andrews Curve) 目录

  3. 人工智能Java SDK:图片分类(支持imagenet数据集分类)

    图片分类(支持imagenet数据集分类)SDK 识别图片1000种分类. 支持分类如下: tench, Tinca tinca goldfish, Carassius auratus great w ...

  4. 垃圾邮件分类(trec06c数据集)数据处理-特征提取

    目录 目标:我要提取 发件人(From).收件人(To).邮件主题(Subject).邮件正文(zhengwen) 作为邮件特征,然后输入到线性分类模型中进行训练 首先是这四个特征提取的部分 发件人 ...

  5. 垃圾邮件分类(trec06c数据集)特征分词、特征向量化、模型训练

    目录 得到全量数据集 得到采样数据集 模型训练 全部代码: 结果 已完结 接上: 垃圾邮件分类(trec06c数据集)数据处理-特征提取 https://blog.csdn.net/qq_393215 ...

  6. AlexNet训练分类猫狗数据集

    AlexNet训练分类猫狗数据集 视频教程来源 视频程序以及猫狗数据集: 链接:https://pan.baidu.com/s/1Tqs5bFY2wVvtGeuFBWV1Yg 提取码:3zrd 一.数 ...

  7. MnTTS: 开源蒙古语语音合成数据集及其基线模型

    本次分享内蒙古大学蒙古文信息处理重点实验室.蒙古文智能信息处理技术国家地方联合工程研究中心及语音理解与生成实验室 (S2LAB) (https://ttslr.github.io/index_S2Gr ...

  8. 对最近用于细粒度车辆分类的深度学习架构的系统评估

    细粒度的车辆分类是对车辆的品牌.型号和年份进行分类的任务. 这是一项非常具有挑战性的任务,因为不同类型但颜色和视点相似的车辆通常看起来比相同类型但颜色和视点不同的车辆更相似. 车辆制造商.型号和年份与 ...

  9. 常见的计算机监控系统分类,第二章 发厂计算机监控系统的基本分类.doc

    第二章 发电厂计算机监控系统的基本分类 本章主要了解电厂计算机监控系统的各种分类方法,各自的特征.适用范围,以及对 计算机监控系统的基本要求. 第一节发电厂计算机监控的基本类型及其特点 在生产过程自动 ...

最新文章

  1. Java中Thread中的实例方法_Java多线程2:Thread中的实例方法
  2. BEX5下新建任务到待办任务
  3. 【跃迁之路】【545天】程序员高效学习方法论探索系列(实验阶段302-2018.08.04)...
  4. mfc ado 链接mysql 数据_MFC用ado方法和数据库连接后,怎么取得数据?(高加分)...
  5. ubuntu 下使用mysql
  6. 中国深圳,600架无人机的盛典!
  7. /etc/ssh/sshd_config 关建字:PermitRootLogin no  禁示以root身份登录服务器
  8. C# 客户端内存优化分析
  9. Mac下关于-您不能拷贝项目“”,因为它的名称太长或包括的字符在目的宗卷上无效。-的删除...
  10. 几种机器学习平台的对比和选择
  11. bzoj1303[CQOI2009]中位数图
  12. WSO2 WSF/CPP 网络服务开发例子1--HELLO
  13. VS编译器中QT版本问题不正确解决方法-Please assign a Qt installation in ‘Qt Project Settings‘.
  14. 弘辽科技:手淘推荐流量总是忽高忽低如何稳定获取
  15. 项目管理project模板_项目管理常用的10张图表推荐
  16. 站在Stay老司机肩膀上分析Retrofit
  17. 计算机网络请子网划分,计算机网络不同主机数的子网划分
  18. 单片机笔记(江科大自化协)
  19. 加拿大综合类大学排名获关注,盘点高校对雅思要求
  20. 华为电脑Linux进pe,华为 matebook X Pro怎样用PE重装系统win10

热门文章

  1. 【连载】vSphere 4.0 问答之引子 ---《vSphere 4.0 Quick Start Guide》节选和粗译
  2. 常见的网络工程师面试问题
  3. python源码笔记_python源码学习笔记(一)
  4. 计算机配置里 无 管理模板,组策略里打开后没有管理模板
  5. python123第五周作业答案_马哥2016全新Linux+Python高端运维班第五周作业
  6. java类的修改三个方面_Java 编程的动态性,第 6 部分: 利用 Javassist 进行面向方面的更改--转载...
  7. mysql key uni_uni app 踩坑实录
  8. python类中方法相互调用_python 类中方法之间的调用
  9. lisp ssget 浩辰_AutoCAD和浩辰CAD,gCAD都可以用的lisp
  10. mysql将查到的数据删除_MySQL数据库的基本操作——增、删、改、查