SH-SSS丨《ISSD: 基于迭代式语音分离的说话人日志系统》论文线上分享

SH Symposium Series on Speech (SH SSS 2022)

SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。

来自AI语音技术领域的优秀论文作者、专家学者，用最精炼的表达来解读最新的高质量论文。

分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。

主题 Tittle

ISSD: 基于迭代式语音分离的说话人日志系统

时间 Time

2022年11月15日 19:00 - 19:45

嘉宾 Author

牛树同：中国科学技术大学语音实验室博士研究生。主要研究方向为语音分离及说话人日志任务。合作文章曾发表于ICASSP、INTERSPEECH等语音领域会议。作为团队成员参加DIHARD III及DCASE 2022 Task 3等国际挑战赛并取得第一名。

概述 Abstract

本文提出了一种基于迭代式语音分离的说话人日志（Iterative separation-based speaker diarization, ISSD）方法来处理真实的测试数据。在ISSD方法中，我们根据说话人先验迭代地产生自适应数据来提高分离模型的泛化能力，这可以使得模型性能逐步提升。为了进一步减少说话人先验中一些不可避免的检测错误带来的影响，我们利用说话人的声纹信息提出了两种后处理方法，即说话人过滤以及说话人恢复。我们在真实的两人电话语音（Conversational telephone speech, CTS）上对提出的方法进行了测试。实验结果表明，与最先进的基于聚类的说话人日志系统（Clustering-based speaker diarization, CSD）相比，我们提出的方法在开发集和测试集上分别取得了47.72%和46.97%的相对提升。ISSD也是我们在DIHARD III挑战赛冠军系统中应用的一个关键技术。

题目 Tittle

中文：ISSD: 基于迭代式语音分离的说话人日志系统

英文：IMPROVING SEPARATION-BASED SPEAKER DIARIZATION VIA ITERATIVE MODEL REFINEMENT AND SPEAKER EMBEDDING BASED POST-PROCESSING

收录会议 Source Title

ICASSP 2022

作者 Authors

牛树同，杜俊，孙磊，李锦辉

论文地址 Url

https://ieeexplore.ieee.org/document/9746354

议程

Program Overview

时间

主题

嘉宾

19:00-19:30

ISSD: 基于迭代式语音分离的

说话人日志系统

牛树同

19:30-19:45

Q&A

参与方式

Joining

直播将通过语音之家微信视频号进行直播，手机端、PC端可同步观看。

SH-SSS丨《ISSD: 基于迭代式语音分离的说话人日志系统》论文线上分享相关推荐

挑战赛 | ISCSLP2022对话短语音说话人日志挑战赛决出三甲
2022年7月4日起,由中国科学院声学研究所.西北工业大学.新加坡A*STAR信息通信研究所.上海交通大学以及Magic Data联合主办的 "ISCSLP2022对话短语音说话人日志挑战赛 ...
【论文综述】基于深度学习语音分离技术的研究现状与进展
基于深度学习语音分离技术的研究现状与进展本文主要是针对单通道的监督性语音分离技术的综述,描述该技术涉及到的特征.模型和目标三个主要方面:并对语音分离的一般流程和整体框架进行了详细的介绍.归纳和总结. ...
LiveVideoStack线上分享第四季（一）：沉浸式音频技术的采集，传输，播放，以及应用场景初探...
今晚 7:30,LiveVideoStack线上分享第四季,第一期,我们邀请到了时代拓灵创始人&CEO,孙学京博士从声场的采集,传输,到渲染播放所需要的算法,以及软硬件等方面介绍沉浸式音频, ...
LiveVideoStack线上分享第五季（五）：用FFmpeg搭建基于CNN的视频分析方案
基于卷积神经网络(CNN)的视频分析在日常生活中应用地越来越广泛,也对软件开发人员提出了更多的挑战.FFmpeg作为一个集录制.转换.音/视频编码解码功能为一体的开源框架,自然也需要考虑怎样去和当下流 ...
LiveVideoStack线上分享第五季（四）：基于Nginx的媒体服务器技术
国内应用比较多的开源流媒体服务器有SRS和nginx-rtmp-module,其中nginx-rtmp-module一直以来由于功能少.集群化难度大所诟病.3月8日 19:30,LiveVideoSt ...
LiveVideoStack线上分享第四季（五）：基于Airflow的视频编码平台
10月17日 19:30,LiveVideoStack线上分享第四季,第五期,我们邀请到了Hotstar 视频编码高级工程师常谦详细介绍如何基于Airflow构建视频编码平台,通过直观地展示.跟进批 ...
LiveVideoStack线上分享第四季（二）：基于内容的自适应视频传输算法及其应用...
今晚 7:30,LiveVideoStack线上分享第四季,第二期,我们邀请到了湖北经济学院副教授,胡胜红博士介绍如何基于内容分析技术,从用户需求角度标注视频流重要性级别,结合自适应流传输策略,实现语 ...
UC伯克利黑科技：用语音数据预测说话人手势
点击我爱计算机视觉标星,更快获取CVML新技术昨天CVPR 论文终于提供下载: 重磅!CVPR 2019 论文终于全面开放下载!附百度云链接看到一篇CVPR 2019 论文<Learning ...
基于Mask的语音分离
本文代码请见:https://github.com/Ryuk17/SpeechAlgorithms 目录 1. 时频掩蔽 2. 语音分离 Mask这个单词有的地方翻译成掩蔽有的地方翻译成掩膜,我个人 ...
【线上分享】基于人眼主观视觉的画质评价与提升
围绕人眼主观感知,陌陌在无参考画质评价.窄带高清.超分增强.大型活动现场美颜增强等方面进行了一系列探索与实践. 11月19日 19:30,我们邀请到了陌陌资深专家刘怀达和大家一同探讨如何基于人 ...

SH-SSS丨《ISSD: 基于迭代式语音分离的说话人日志系统》论文线上分享

SH-SSS丨《ISSD: 基于迭代式语音分离的说话人日志系统》论文线上分享相关推荐

最新文章

热门文章