DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一
允中 发自 凹非寺
量子位 编辑 | 公众号 QbitAI
近日,在第六届国际权威声学场景和事件检测及分类竞赛 (Detection and Classification of Acoustic Scenes and Events, DCASE 2020) 中,腾讯多媒体实验室天籁音频研究团队首次参加了声学场景识别 (Acoustic Scene Classification, Task 1) 任务竞赛,并从47支来自全球顶尖学术界和工业界的声学研究队伍中脱颖而出,取得双项指标国内第一、国际第二的成绩。
此次参赛是腾讯多媒体实验室领衔美国佐治亚理工大学信号与信息处理中心实验室,中国科技术大学语音及语言信息处理国家工程实验室联合参与,从最终评估的结果上看,在综合Task 1a (不限制声学模型大小评估识别性能)与 Task 1b (限制模型大小条件下评估识别性能)两个任务中,取得了综合第一名的成绩,在两个子任务中分别位列第二名,与第一名分数相比仅差0.3%。
△ Task 1a上的队伍排名
△ Task 1b上的队伍排名
DCASE 比赛是由伦敦玛丽女王大学(Queen Mary University of London)在2013年首次发起的声学场景识别挑战,后续由坦佩雷理工大学(Tamper University of Technology)持续发起,近些年引起了国内外众多尖端声学研究界的广泛关注,包括谷歌、纽约大学等。
本次DCASE 2020比赛,共设置六个任务,包括声学场景识别、异常机器声音的非监督识别、声学事件检测、声学事件分离、城市声音标记和自动为音频生成标题纪要,吸引了包括亚马逊、英特尔、高通骁龙等国际公司和清华大学、新加坡南洋理工大学、香港中文大学等顶级高校的共138个队伍、473个有效系统参赛。
其中,多媒体实验室所参加的声学场景识别任务 (Task 1),共有47支队伍与179个提交系统参与,是所有任务中参赛队伍最多、提交系统最多、竞争程序最激烈的任务。清华大学、北京大学(深圳)、新加坡南洋理工大学等国内外顶级高校,以及高通人工智能研究院(首尔)、 美国 Intel 研究院(加利福尼亚)等知名通信、科技公司均在其中。
Task 1包含了两个子任务,子任务task 1a的声学场景识别系统要求识别不同终端设备,比如手机、ipad或其它录音设备采集的音频,识别成不同的类别。如下图(左)所示,将不同设备不同场景采集的信号正确分类成“地铁站”、“公园”和“公共广场”。采用不同设备来评估场景识别系统就是为了验证系统对多种设备的鲁棒性。子任务task 1b的声学场景识别系统限制性的将模型大小压缩在500k以内,在此条件下,需要场景识别系统尽可能高效的识别“室内”、“室外”、“交通”这三种常见的声学大场景。这里对声学模型大小提出要求的初衷就是为了更好地将现有科学研究方法迅速转换成可以真正意义的落地产品,以克服设备上运行深度学习网络高CPU消耗的难题。
本次声学场景识别任务,涵盖机场、室内购物、地铁站台、街道行人、公共广场等10个通用声学场景。在现实生活中,这些通用声学场景,通常同时存在多个声音,并且会被环境噪声干扰。此次任务,通过研究来识别真实场景的声音场景和声音事件,对于让声音场景识别应用落地具有重要意义。
声学场景识别就是利用机器学习模仿人脑,对周边的环境进行有效及时的判断。随着深度学习的高度演化,声学场景识别的正确率有了飞跃提升。高识别率的场景识别系统则更进一步扩大其在生活中的应用场景。如智能“婴儿哭声”监控,可以有效帮助父母及时照看突然惊醒孩子,“枪声场景检测”可以应用在各类安防设备上,“鸟类啼叫场景”检测可以有效监测自然界生态的变化,“马路上警笛场景”检测可提醒路行人及车辆让出交通空间,“地铁”场景检测和“睡眠质量监测”等。
△ 现实生活中的声学场景识别应用
实际上,DCASE2020的声学场景识别任务,与多媒体实验室自研的音视频实时通信产品——“腾讯会议”中的声学场景识别落地应用最为贴近。基于领先的腾讯天籁音频解决方案,腾讯会议可以让不同地点、场景、设备终端同时远程接入,让远程在线沟通可行高效。
但由于不同入会者处的场景环境千变万化,或在安静办公室,或在嘈杂的公共场所,不同场景需要对音频流进行不同处理。如会议入会方检测到街道环境,需要对风声和交通噪音进行处理;如在开重要会议,如果某参会方所处嘈杂声学场景并忘记关闭麦克风,系统可提醒主持人或自动禁止嘈杂端麦克风;如检测到音乐场景,则不启动降噪算法,保证音乐可以高质量的传输到对端;如检测到漏回声场景,特别是一些移动端设备大音量外放声音时,可以开启残留回声消除算法。
△ 实时音视频通信中的声学场景识别应用
作为腾讯顶级的科技实验室之一,腾讯多媒体实验室将继续致力于端到端实时语音通信、音频引擎、音频处理、音频场景事件检测识别等业界领先的人人通信基础理论,加大在关键技术和应用系统的研究和开发的投入,提供基于云和客户端的多种行业解决方案,让声学场景识别更广泛落地应用。
— 完 —
了解AI发展现状,抓住行业发展机遇
每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。
同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:
AI社群 | 与优秀的人交流
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
DCASE 2020权威声学比赛:腾讯多媒体实验室斩获双项指标国内第一相关推荐
- 专访腾讯多媒体实验室商世东:咬咬牙也要跟上新版本的发布
Photo by Sergey 文章由LiveVideoStack与商世东的采访整理而成 编辑:Coco Liang 1. 选择 离开杜比从来都不是一个困难的决定 刚刚毕业的时候,我在摩托罗拉做音频方 ...
- 短视频生产利器!视频裁剪之横屏转竖屏新技术,出自腾讯多媒体实验室
腾讯多媒体技术专栏 伴随手机等智能设备的广泛使用以及短视频平台的兴起,越来越多的"竖屏"视频开始占据人们的视野.目前,许多"竖屏"视频仍是由16:9等宽高比的& ...
- 腾讯多媒体实验室画质增强技术的前沿应用
全真互联时代,音视频技术内核不断更新迭代,LiveVideoStackCon 2022 北京站邀请到腾讯多媒体实验室视频技术研发负责人--夏珍,与大家分享画质增强技术的一些前沿探索和应用研究,在经典影 ...
- 制造“空间魔术”:为未来取暖的腾讯多媒体实验室
对80.90后包括00后来说,人生中很多"见证奇迹的时刻",都是与腾讯旗下一款款国民级产品共同度过的.比如第一次向千里之外的网友发出那句"你好吗",感受到了天涯 ...
- 腾讯多媒体实验室:基于三维卷积神经网络的全参考视频质量评估算法
腾讯有多个视频业务线,点播视频有腾讯视频.企鹅影视,短视频有微视.K歌,直播类有Now直播.企鹅电竞,实时传输类有QQ和微信的音视频通话.无线投屏和腾讯会议等. 用户对不同的产品有不同程度的期待:比如 ...
- 智能存储:多媒体实验室AIGC能力助力数据万象开启智能剪辑大门
引言 AIGC正从效率.质量.创意.多样性各方面革新内容生产流程,伴随firely.midjourney等现象级的产品出现,AIGC将逐步广泛服务于内容生产的各类场景与内容生产者,随着AIGC在内容生 ...
- 世界视频编码器大赛结果揭晓,腾讯V265编码器勇夺两项第一
2019年10月22日,由莫斯科国立大学(Moscow State University)举办的MSU世界视频编码器大赛成绩揭晓, 腾讯内部开源协同的V265编码器再创佳绩,一举拿下PSNR(峰值信噪 ...
- KDD Cup 2020多模态召回比赛亚军方案与搜索推荐业务的业务应用
ACM SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)是世界数据挖掘领域的顶级国际会议.今年,KDD Cup共 ...
- KDD Cup 2020多模态召回比赛亚军方案与搜索业务应用
ACM SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)是世界数据挖掘领域的顶级国际会议.今年,KDD Cup共 ...
最新文章
- 28岁适合转嵌入式开发吗?
- Hadoop完全分布式HA环境搭建
- windows mobile 软件_三星两款新软件曝光,使智能手机和电视更好交互
- 解决网通英文wiki无法显示图片问题【20100723更新】
- 信息化项目甲方采购的准备与实施
- mysql学生成绩视图_mysql的视图
- linux进程的线程信息,Linux 下查看线程信息
- JavaMail API详解
- 【FFmpeg4.1.4 编码】h265编码
- SH-SSS丨《端到端音视频说话人日志网络》论文线上分享
- 计算机其它离的360云盘,多台电脑无缝共享文件 360云盘无限保存
- 第三方支付宝API应用流程
- 苹果用 45 分钟,抽了整个行业仨嘴巴
- ILI9341的使用之【八】ASCII字符显示及驱动分析
- 32g服务器做成虚拟,服务器32g内存 tomcat设置多大
- 教程篇(7.0) 06. FortiGate安全 日志记录和监控 ❀ Fortinet 网络安全专家 NSE 4
- yoyo鹿鸣lumi动态壁纸人工桌面(软件篇)
- nfc android 7.0 apk,分屏/NFC一卡通 一加3安卓7.0氢OS体验
- 能够摧毁你的只有你自己
- 机器人单关节力矩控制
热门文章
- 批量过滤删除AD中的对象
- 神州数码发布2015年第一季度财报 营收169.01亿港币 同比增长1.77%
- 你知道数据中心宕机的真正成本吗?
- Weex控制Android返回键解决方案
- 人像摄影哪家强?同为双摄的OPPO R11不敌金立S10
- 小白们应当知道的配置系统变量PATH 的小技巧。
- Move to Another Changelist
- php分享表单提交到本页的实例
- [Hadoop] Error: JAVA_HOME is not set
- 内存管理-定时器循环、内存布局、tagged pointer、weak指针、copy、自动释放池