SH-SSS丨《ISSD: 基于迭代式语音分离的说话人日志系统》论文线上分享
SH Symposium Series on Speech (SH SSS 2022)
SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。
来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。
分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。
主题 Tittle
ISSD: 基于迭代式语音分离的说话人日志系统
时间 Time
2022年11月15日 19:00 - 19:45
嘉宾 Author
牛树同:中国科学技术大学语音实验室博士研究生。主要研究方向为语音分离及说话人日志任务。合作文章曾发表于ICASSP、INTERSPEECH等语音领域会议。作为团队成员参加DIHARD III及DCASE 2022 Task 3等国际挑战赛并取得第一名。
概述 Abstract
本文提出了一种基于迭代式语音分离的说话人日志(Iterative separation-based speaker diarization, ISSD)方法来处理真实的测试数据。在ISSD方法中,我们根据说话人先验迭代地产生自适应数据来提高分离模型的泛化能力,这可以使得模型性能逐步提升。为了进一步减少说话人先验中一些不可避免的检测错误带来的影响,我们利用说话人的声纹信息提出了两种后处理方法,即说话人过滤以及说话人恢复。我们在真实的两人电话语音(Conversational telephone speech, CTS)上对提出的方法进行了测试。实验结果表明,与最先进的基于聚类的说话人日志系统(Clustering-based speaker diarization, CSD)相比,我们提出的方法在开发集和测试集上分别取得了47.72%和46.97%的相对提升。ISSD也是我们在DIHARD III挑战赛冠军系统中应用的一个关键技术。
题 目 Tittle
中文:ISSD: 基于迭代式语音分离的说话人日志系统
英文:IMPROVING SEPARATION-BASED SPEAKER DIARIZATION VIA ITERATIVE MODEL REFINEMENT AND SPEAKER EMBEDDING BASED POST-PROCESSING
收录会议 Source Title
ICASSP 2022
作 者 Authors
牛树同,杜俊,孙磊,李锦辉
论文地址 Url
https://ieeexplore.ieee.org/document/9746354
议程
Program Overview
时间 | 主题 | 嘉宾 |
19:00-19:30 |
ISSD: 基于迭代式语音分离的 说话人日志系统 |
牛树同 |
19:30-19:45 | Q&A |
参与方式
Joining
直播将通过语音之家微信视频号进行直播,手机端、PC端可同步观看。
SH-SSS丨《ISSD: 基于迭代式语音分离的说话人日志系统》论文线上分享相关推荐
- 挑战赛 | ISCSLP2022对话短语音说话人日志挑战赛决出三甲
2022年7月4日起,由中国科学院声学研究所.西北工业大学.新加坡A*STAR信息通信研究所.上海交通大学以及Magic Data联合主办的 "ISCSLP2022对话短语音说话人日志挑战赛 ...
- 【论文综述】基于深度学习语音分离技术的研究现状与进展
基于深度学习语音分离技术的研究现状与进展 本文主要是针对单通道的监督性语音分离技术的综述,描述该技术涉及到的特征.模型和目标三个主要方面:并对语音分离的一般流程和整体框架进行了详细的介绍.归纳和总结. ...
- LiveVideoStack线上分享第四季(一):沉浸式音频技术的采集,传输,播放,以及应用场景初探...
今晚 7:30,LiveVideoStack线上分享第四季,第一期,我们邀请到了时代拓灵 创始人&CEO,孙学京博士从声场的采集,传输,到渲染播放所需要的算法,以及软硬件等方面介绍沉浸式音频, ...
- LiveVideoStack线上分享第五季(五):用FFmpeg搭建基于CNN的视频分析方案
基于卷积神经网络(CNN)的视频分析在日常生活中应用地越来越广泛,也对软件开发人员提出了更多的挑战.FFmpeg作为一个集录制.转换.音/视频编码解码功能为一体的开源框架,自然也需要考虑怎样去和当下流 ...
- LiveVideoStack线上分享第五季(四):基于Nginx的媒体服务器技术
国内应用比较多的开源流媒体服务器有SRS和nginx-rtmp-module,其中nginx-rtmp-module一直以来由于功能少.集群化难度大所诟病.3月8日 19:30,LiveVideoSt ...
- LiveVideoStack线上分享第四季(五):基于Airflow的视频编码平台
10月17日 19:30,LiveVideoStack线上分享第四季,第五期,我们邀请到了Hotstar 视频编码高级工程师 常谦详细介绍如何基于Airflow构建视频编码平台,通过直观地展示.跟进批 ...
- LiveVideoStack线上分享第四季(二):基于内容的自适应视频传输算法及其应用...
今晚 7:30,LiveVideoStack线上分享第四季,第二期,我们邀请到了湖北经济学院副教授,胡胜红博士介绍如何基于内容分析技术,从用户需求角度标注视频流重要性级别,结合自适应流传输策略,实现语 ...
- UC伯克利黑科技:用语音数据预测说话人手势
点击我爱计算机视觉标星,更快获取CVML新技术 昨天CVPR 论文终于提供下载: 重磅!CVPR 2019 论文终于全面开放下载!附百度云链接 看到一篇CVPR 2019 论文<Learning ...
- 基于Mask的语音分离
本文代码请见:https://github.com/Ryuk17/SpeechAlgorithms 目录 1. 时频掩蔽 2. 语音分离 Mask这个单词有的地方翻译成掩蔽有的地方翻译成掩膜,我个人 ...
- 【线上分享】基于人眼主观视觉的画质评价与提升
围绕人眼主观感知,陌陌在无参考画质评价.窄带高清.超分增强.大型活动现场美颜增强等方面进行了一系列探索与实践. 11月19日 19:30,我们邀请到了 陌陌 资深专家 刘怀达 和大家一同探讨如何基于人 ...
最新文章
- ogr2ogr: Export Well Known Text (WKT) for one feature to a CSV file
- 好程序员web前端分享js剪切板Clipboard.js 使用
- 在线录音机 html5,recorder
- 若依项目linux部署
- VTK修炼之道28:图像统计_灰度直方图计算
- Hadoop Hive创建外部表及多表join操作
- Java基础篇:四种代码块详解
- android tv 开发布局,Android TV开发总结(七)构建一个TV app中的剧集列表控件
- nodejs安装到d盘怎么使用npm_NodeJS、NPM安装配置步骤
- Oreo易支付程序开源源码分享发行版V1.3
- HTML 和 JavaScript 编程
- 计算机原理测试卷一,计算机原理章节测考试试卷一.doc
- [转]使用Python MrJob的MapReduce实现电影推荐系统
- matlab 机器学习相关函数、api
- Eclipse打开目标文件夹
- 硬盘总是在计算机中消失了,我计算机的D盘,E盘和F盘都消失了,只有C盘了. 这是怎么回事? -d驱动器c驱动器...
- 经颅磁刺激对大脑结构的直接影响: cTBS后的短期神经可塑性
- 第三阶段应用层——1.7 数码相册—电子书(6)—支持远程打印信息
- 漫威宇宙影视作品及观看顺序
- 智慧高铁、智慧机场对护照阅读器的应用 SDK说明
热门文章
- matlab中升余弦滚降滤波器_升余弦滤波器原理
- Windows使用MinGW编译ffmpeg
- 直播热潮之下的图片社交洼地
- libsvm多分类python_LIBSVM (三) 葡萄酒种类识别
- CF - 158B - Taxi
- Java HotSpot(TM) 64-Bit Server VM warning: CodeCache is full. Compiler has been disabled
- 使用PLSQL演示TM锁互斥现象
- 大数据时代个人信息保护的困境与思考
- VMware WorkStation虚拟机的安装及使用
- 魔兽争霸官方平台支持Linux,首页-魔兽争霸官方对战平台