语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
Towards Measuring Fairness in Speech Recognition: Casual Conversations Dataset Transcriptions
本文为facebook在2021.11.18更新的文章,主要开源一个带诸多metadata属性(性别,年龄,肤色等等)的闲聊Casual Conversations语音测试集,并使用该测试集对ASR系统进行fairness评估,发掘更多影响ASR效果的诸多因素,为开发更加鲁棒的ASR系统做贡献,具体的文章链接
https://arxiv.org/pdf/2111.09983.pdf
1 研究背景
机器学习系统中的算法偏差问题广为人知并得到充分研究,诸如面部视觉系统受到肤色、年龄等等因素的影响,但对于ASR模型的偏差研究的关注度非常低,因此本文提供了带诸多metadata属性(性别,年龄,肤色等等)的闲聊Casual Conversations语音测试集,并进行ASR偏差实验和影响因素的探索,为探索更加鲁棒的识别系统做贡献,省却搜集大量的特定目标人的训练语料。
2 详细实验
数据从846小时数据整理和标注572小时,数据包括音频、对应的标注文本、说话人的性别、年龄、肤色等信息。
对比的四个系统RNN-T
1)LibriSpeech Model:使用LibriSpeech训练的模型
2)video model, supervised: 使用带标注的14k小时的数据训练新型模型
3)video model, semi-supervised: 使用带标注的14k小时的数据和2百万无标签的数据训练新型模型
4)video model, semi-supervised teacher: 使用10亿参数的teacher模型
对比影响因素:性别,年龄,肤色。其中肤色看起来不会直接影响ASR,但它代表隐含因素对系统影响。
实验结果:
先看table1的结果,每种系统的WER不一样,这个不在本文的探索之内。可以观测到性别和肤色影响因素对系统的影响很大,整体偏向女性效果较好。另外,年龄之间影响差别较小。Fig.1展示了各种肤色的测CI,如果包括零则差别不大,如黑色线。红色线代表差别大。LibriSpeech的肤色影响较重,Video semi-supervised稍微好一些,可能跟2百万的数据覆盖更多属性有关。Table2是使用本文闲聊数据划分部分数据进行微调,即使wer整体下降,但不能降低各因素之间的偏差,需要研究更深层次的影响因素。
3 总结
对于ASR模型的偏差研究,因此本文提供了带诸多metadata属性的闲聊Casual Conversations语音测试集,并进行ASR偏差实验和影响因素的探索,为探索更加鲁棒的识别系统做贡献。
语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition相关推荐
- 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
- 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:车内场景粤语指令数据集CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recogni
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:性能测试Wav2Vec2.0 on the Edge: Performance Evaluation
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:Tied Reduced RNN-T Decoder
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
- 语音识别(ASR)论文优选:WeNet之U2++
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
最新文章
- javascript编写_如何通过编写自己的Web开发框架来提高JavaScript技能
- shell part2
- python图表之pygal入门篇
- hadoop MapReduce实例解析
- opencv中使用K-近邻分类算法KNN
- log4cxx编译过程–linux
- python与正则表达式(part3)--贪婪模式和非贪婪模式
- linux 755 777是什么权限,linux系统下644、755、777权限详解
- 聊一下C#开发者如何过渡到JAVA 开发者
- php首字母 大写 数组去重复
- 图片链接在FireFox下好用,但是在IE下不好用!
- spark aggregate函数详解
- 【三维路径规划】基于matlab A_star算法无人机山地三维路径规划【含Matlab源码 266期】
- Android 日历提供器(一)
- mx250显卡天梯图_MX250相当于什么显卡?来看显卡天梯图
- 教师计算机excel培训教案,信息技术教案:Excel中的函数
- php 连接 mysql 8.0
- 真正的英雄(罗纳德·里根在“挑战者号”航天飞机失事后的演讲词)
- Java练习题_通过2月天数来判断平年闰年
- 电脑出现无法访问您试图使用的功能所在的网络位置怎么办?(清除软件卸载残留)