声纹识别:自监督学习语音识别利于声纹识别Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recogni
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询 http://yqli.tech/page/data.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recognition?
本文为哈尔滨工业大学和微软在2022.04.27更新的文章,主要研究无监督训练的模型对声纹识别的影响因素,具体的文章链接
https://arxiv.org/pdf/2204.12765.pdf
(本文章主要实验论证,我尽可能的写的短,让读者2分钟知道该论文做了什么,效果怎样即可)
自监督训练的模型不仅仅使语音识别系统的准确率提升,该模型同样可以使声纹识别受益。使用自监督模型进行声纹识别的架构如图1所示。为了探究自监督学习的模型如何影响声纹识别,该文章主要围绕以下三个问题进行试验总结
1, 有监督的 ASR 模型是否也可以使 声纹识别SV 任务受益吗?
2. 自监督学习SSL 对 SV 任务有什么好处?
3. SV 任务的最佳 SSL 设置是什么?
1, 有监督的 ASR 模型是否也可以使 声纹识别SV 任务受益吗?
答:本部分实验对比直接预训练模型HuBERT和使用CTC训练有监督的ASR模型提取的特征与FBank特征作为声纹识别输入的结果可知(table 1),有监督训练的ASR模型不能使声纹识别任务受益。
2. 自监督学习SSL 对 SV 任务有什么好处?
答:由table 1和 table 2实验可知,自监督模型HuBert和wav2vec2.0都好于Fbank,因此自监督学习利于声纹识别。
3. SV 任务的最佳 SSL 设置是什么?
答: 剩余实验都是寻找自监督学习模型影响声纹识别的因素
a) table 2主要对比训练自监督学习模型的目标函数对结果的影响,其结果显示Bubert的pseudo label prediction loss 比 contrastive loss 和 MSE loss好。
b) 自监督模型HuBERT使用不同方法生成pseudo label对结果的影响,不同的聚类算法对最终声纹结果不同。
c) table 4对比数据规模大小和自监督学习模型大小对声纹任务的影响。数据多和参数多效果也会变好。
d ) 图2展示了自监督模型每层输出对声纹识别的影响。其中(a)显示不做微调的自监督模型浅层对声纹识别较大。语音识别模型浅层关注speaker信息,深层关注语义内容信息。自监督的模型相比监督学习的模型,较深层也关注speaker信息,因此自监督模型利于声纹识别任务;(b)更新声纹模型的同时更新自监督模型,可以使深层关注speaker信息。 图3展示无监督模型对声纹识别任务的loss可视化。
声纹识别:自监督学习语音识别利于声纹识别Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recogni相关推荐
- 关于弱监督学习的详细介绍——A Brief Introduction to Weakly Supervised Learning
目录 介绍 主动学习 半监督学习 多实例学习 带噪学习 Snorkel 框架介绍 参考 介绍 在机器学习领域,学习任务可大致划分为两类,一种是监督学习,另一种是非监督学习.通常,两者都需要从包含大量训 ...
- 语音识别(ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
- A brief introduction to weakly supervised learning(简要介绍弱监督学习)
文章转载自http://www.cnblogs.com/ariel-dreamland/p/8566348.html A brief introduction to weakly supervised ...
- 用于语音识别的多任务自我监督学习(Multi-task self-supervised learning for robust speech recognition )
文章目录 简介 论文信息 题目 内容摘要 论文背景 应用背景 技术现状 论文主要工作 论文工作介绍 文章框架 核心工作 1.PASE+整体框架. 蓝色部分是在 PASE 的基础上改进的部分. 2.如何 ...
- 手把手的操作——用java调用科大讯飞的离线语音识别dll实现离线识别(JNA实现)(二)
上一篇的地址手把手的操作--用java调用科大讯飞的离线语音识别dll实现离线识别(JNA实现)(一) 上一篇讲到了最难的地方,参数的转换,这里单独写出来 ** 三.参数的转换(难点) ** 注:本文 ...
- 语音云识别工具_语音识别工具_web语音识别应用程序的工具 - 云+社区 - 腾讯云...
广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 语音识别服务具备识别准确率高.接入便捷.性能稳定等特点. 腾讯云语音识别 ...
- ASR识别(自动语音识别)
简介 asr的实现可分为pipeline或者end2end思路,其中主要区别在于声学模型的识别单元上: 词模型 字发音模型 半音节模型 音素模型 模型识别单元大小(词发音模型.字发音模型. 半音节模型 ...
- 一种基于语音识别的机器人语义识别系统的制作方法
本发明涉及机器人语义识别,尤其涉及一种基于语音识别的机器人语义识别系统. 背景技术: 目前,很多家庭都拥有机器人,但是很多时候机器人并不能准确识别用户对其发出的指示,使用户操作机器人不方便,这样的机器 ...
- matlab 语音识别为文字,语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本...
语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本 2016-08-22 0 0 0 暂无评分 其他 1 积分下载 如何获取积分? 语音识别(Spee ...
最新文章
- react 组件样式_如何使用样式化组件为React组件创建视觉变体
- Spring Boot——Spring Security环境下跨域addCorsMappings与拦截器冲突导致跨域失效解决方案
- VTK:相互作用之PickableOff
- Java 23种设计模式案例:原则及分类
- wireshark解析rtp协议,流媒体中的AMR/H263/H264包的方法
- php获取变量数据类型,php如何确定变量的数据类型
- 异常日志处理-ThrowsAdvice
- 机器学习PAI快速入门
- NYOJ 119 士兵杀敌(三) (线段树)
- POJ 3267 The Cow Lexicon 动态规划
- Android知识点复习1(Activity与Fragment)
- 液压外部测试系统软件,液压测试系统的软件设计
- Intel XTU 开机自启
- 泽众AutoRunner软件的使用方法,以测试win10环境下系统自带的计算器为例
- 启动PE系统找不到计算机硬盘,华硕电脑进PE系统找不到硬盘怎么办?
- 七夕节送女朋友什么礼物、能让女生感动到哭的礼物推荐
- 毕业一年半拿遍所有大厂offer,我是怎么做到的?
- 智云通CRM:如何发现高附加值客户,让他们直接按原价购买?
- 中文字型设计新思路--人工智能与中文字型设计
- 在vue中实现picker样式_用Vue实现timepicker功能
热门文章
- 计算机比赛小组名称和口号,小组名称和口号大全励志,小组名称和口号大全励志...
- 弗雷塞斯 从生物学到生物信息学到机器学习 转录组入门(3):了解fastq测序数据...
- 计算机会计系统与手工会计系统有什么异同,会计电算化系统与手工会计系统的比较研究...
- Pytorch基础操作 —— 8. 张量转置操作
- 如何更新微软的html,如何升级微软2018 Windows 10更新四月正式版17134系统?
- 网易称暴雪离婚不离身;苹果发布 M2 Pro 和 M2 Max 芯片;滴滴出行 App 已重新上架安卓应用商店 | 极客头条...
- CITA架构与云计算服务
- linux如何更改密钥环密码,Linux系统教程:Ubuntu桌面上禁用默认的密钥环解锁提示...
- java小白日常报错
- Microsoft Visual Studio 2013 产品密匙