声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Towards Measuring Fairness in Speech Recognition: Casual Conversations Dataset Transcriptions

本文为facebook在2021.11.18更新的文章,主要开源一个带诸多metadata属性(性别,年龄,肤色等等)的闲聊Casual Conversations语音测试集,并使用该测试集对ASR系统进行fairness评估,发掘更多影响ASR效果的诸多因素,为开发更加​鲁棒的ASR系统做贡献,具体的文章链接

https://arxiv.org/pdf/2111.09983.pdf


1 研究背景

机器学习系统中的算法偏差问题广为人知并得到充分研究,诸如面部视觉系统受到肤色、年龄等等因素的影响,但对于ASR模型的偏差研究的关注度非常低,因此本文提供了带诸多metadata属性(性别,年龄,肤色等等)的闲聊Casual Conversations语音测试集,并进行ASR偏差实验和影响因素的探索,为探索更加鲁棒的识别系统做贡献,省却搜集大量的特定目标人的训练语料。

2 详细实验

数据从846小时数据整理和标注572小时,数据包括音频、对应的标注文本、说话人的性别、年龄、肤色等信息。

对比的四个系统RNN-T

1)LibriSpeech Model:使用LibriSpeech训练的模型

2)video model, supervised: 使用带标注的14k小时的数据训练新型模型

3)video model, semi-supervised: 使用带标注的14k小时的数据和2百万无标签的数据训练新型模型

4)video model, semi-supervised teacher: 使用10亿参数的teacher模型

对比影响因素:性别,年龄,肤色。其中肤色看起来不会直接影响ASR,但它代表隐含因素对系统影响。

实验结果:

先看table1的结果,每种系统的WER不一样,这个不在本文的探索之内。可以观测到性别和肤色影响因素对系统的影响很大,整体偏向女性效果较好。另外,年龄之间影响差别较小。Fig.1展示了各种肤色的测CI,如果包括零则差别不大,如黑色线。红色线代表差别大。LibriSpeech的肤色影响较重,Video semi-supervised稍微好一些,可能跟2百万的数据覆盖更多属性有关。Table2是使用本文闲聊数据划分部分数据进行微调,即使wer整体下降,但不能降低各因素之间的偏差,需要研究更深层次的影响因素。

3 总结

对于ASR模型的偏差研究,因此本文提供了带诸多metadata属性的闲聊Casual Conversations语音测试集,并进行ASR偏差实验和影响因素的探索,为探索更加鲁棒的识别系统做贡献​。

语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition相关推荐

  1. 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  2. 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  3. 语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  4. 语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  5. 语音识别(ASR)论文优选:车内场景粤语指令数据集CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recogni

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  6. 语音识别(ASR)论文优选:性能测试Wav2Vec2.0 on the Edge: Performance Evaluation

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  7. 语音识别(ASR)论文优选:挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  8. 语音识别(ASR)论文优选:Tied Reduced RNN-T Decoder

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  9. 语音识别(ASR)论文优选:WeNet之U2++

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

最新文章

  1. javascript编写_如何通过编写自己的Web开发框架来提高JavaScript技能
  2. shell part2
  3. python图表之pygal入门篇
  4. hadoop MapReduce实例解析
  5. opencv中使用K-近邻分类算法KNN
  6. log4cxx编译过程–linux
  7. python与正则表达式(part3)--贪婪模式和非贪婪模式
  8. linux 755 777是什么权限,linux系统下644、755、777权限详解
  9. 聊一下C#开发者如何过渡到JAVA 开发者
  10. php首字母 大写 数组去重复
  11. 图片链接在FireFox下好用,但是在IE下不好用!
  12. spark aggregate函数详解
  13. 【三维路径规划】基于matlab A_star算法无人机山地三维路径规划【含Matlab源码 266期】
  14. Android 日历提供器(一)
  15. mx250显卡天梯图_MX250相当于什么显卡?来看显卡天梯图
  16. 教师计算机excel培训教案,信息技术教案:Excel中的函数
  17. php 连接 mysql 8.0
  18. 真正的英雄(罗纳德·里根在“挑战者号”航天飞机失事后的演讲词)
  19. Java练习题_通过2月天数来判断平年闰年
  20. 电脑出现无法访问您试图使用的功能所在的网络位置怎么办?(清除软件卸载残留)

热门文章

  1. 已知坐标增量求坐标方位角_详解坐标计算的方式!值得收藏!
  2. LaTeX常用数学符号表示方法
  3. 使用certbot工具制作免费https证书
  4. 给Rstudio修改背景和字体等设置教程
  5. mac自带邮箱添加邮箱_如何在Mac上的Mail中创建或删除邮箱
  6. Hudi(12):Hudi集成Flink之sql-client方式
  7. 【Cartopy】1.库的安装和使用
  8. 0基础怎么学习SEO?
  9. 一个bug引发的人生感悟
  10. U8650真正一键root,适合不刷机人群,绝对可用