声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

Scaling ASR Improves Zero and Few Shot Learning

本文为facebook在2021.11.10更新的文章,主要研究ASR在超大规模的数据(450万小时)和超大参数(100亿)的模型的实验效果,具体文章链接https://arxiv.org/pdf/2010.10504v1.pdf


先说个题外话题​,AI的研究更像奥运比赛​:更高,更快,更强​。更高:准确度等性能指标更高​。更快:训练、推理服务速度更快​。更强:鲁棒性、泛化能力更​强。随着AI发展,模型的参数量、数据量以及计算资源等因素使该领域研究归于巨头掌中​。Nvidia GTC2021大会的语言模型Megatron已经达到5300亿的参数量,训练如此超规模模型所使用的数据、计算资源让绝大多数的研究机构和企业无法参与。

除了以上NLP的实例,语音识别的研究也进入超参数超数据时代,比如2021.10.01 google更新的文章BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition的模型参数已经达到80亿,使用的无标签和有标签数据接近100万小时数据。而本文的数据量达到450万小时,100亿的参数量​。对于以上试验,我们是无法进行复现试验,因此我们只能瞻仰这些大牛们的工作,扩展视野)

一 研究背景

使用超大规模数据在NLP、CV、ASR领域越来越流行​。但模型参数量和数据量是相互制约的瓶颈,即对于一个模型不是数据越多越好,相反亦然​。因此本文探索了数据量和参数量的制约关系​,并提高​ASR的性能。​

二 详细设计

本文使用了E2E VGG-transformer transducer模型 (如图1和图2所示,图片取自文章

Transformer-Transducer: End-to-End Speech Recognition with Self-Attention),其参数量为table 2​所示。另外本文也试验400亿参数的模型,但该实验没有提高性能,因此不放入本文的对比试验中,留待将来进行​探索。为了训练模型有效性,本文使用aligmnment restricted transducer loss、fully shared data-parallel、activation checkpointing和mixed precision training等技巧​。

table 1为本文的数据详情,共450万​小时,大部分为facebook内部的video数据​。对于该数据,本文提出了words per second、confidence score、model disagreement、segment+alignment、rara data进行数据筛选​。对于数据的标注,可以使用监督和半监督训练的10亿参数量的模型进行​标注。

三 试验

图一展示模型大小和数据量关系,可以看出在13万小时数据,10B的模型相较1B的模型不具有优势,只有数据超大时候才显出优势​。table 2展示数据选取对结果的影响,该结果显示通过特定规则对数据进行筛选和调配​对结果有很大影响。table 4展示zero-shot和few-shot的实验,其中AsphasiaBank为语言障碍语料​。该实验有Universal为从450万语料训练基础模型、From Scratch为从特定语料开始训练、Fine-tuning为在Universal基础上进行微调​实验。可以看到fint-tuning的效果最好​。

四 总计

本文为ASR的超大规模数据和超大模型上的探索实验,主要探索了数据量和参数量的制约关系,并提高zero-shot和few-shot​的实验效果。

语音识别(ASR)论文优选:挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning相关推荐

  1. 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  2. 语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  3. 语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  4. 语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  5. 语音识别(ASR)论文优选:车内场景粤语指令数据集CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recogni

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  6. 语音识别(ASR)论文优选:性能测试Wav2Vec2.0 on the Edge: Performance Evaluation

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  7. 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  8. 语音识别(ASR)论文优选:WeNet之U2++

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  9. 语音识别(ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

最新文章

  1. HP-UX磁带备份错误收集
  2. python 信息加密
  3. 漫谈MySQL索引与字段儿长度的关系
  4. Robotframework与unittest对比
  5. 《机器学习概论》习题答案
  6. 牛客题霸 [ 排序] C++题解/答案
  7. x:Name与Name区别
  8. 矩阵中不重复的元素(51Nod-1024)
  9. Memcached的安装与使用
  10. 分布式理论-BASE理论
  11. java 桌面图标插件_JavaSwing界面设计(所有控件及示例)预览.ppt
  12. java参数传递的乱码问题
  13. 【排序算法】快速排序-迭代方法
  14. win2003实现单用户远程登录
  15. DMA内存申请--dma_alloc_coherent 及 寄存器与内存【转】
  16. 计算机论文物业管理系统,物业小区管理系统 计算机专业毕业论文
  17. unity 安卓端输出日志神器--Reporter插件
  18. 小兔子从小就想做一只很酷的兔子。
  19. java 去掉连续重复字符串_替换Java中连续的重复字符
  20. 【uniapp前端组件】仿微信通讯录列表组件

热门文章

  1. pytest告警信息的处理方法
  2. 浏览器的作用不只是搜索、浏览网页,它还隐藏着这些功能
  3. inputstream流乱码_InputStream读取文件乱码
  4. VisualNet地税管网综合资源管理系统
  5. 熬夜整理Java面试笔试题,你还看不懂吗?
  6. windows10下用PowerShell命令(Get-FileHash)校验文件的Hash值(MD5、SHA1、SHA256等)
  7. 企鹅号15种赚钱方法?企鹅如何快速收益?
  8. GitHub使用gitBash配置用户名和邮箱和远程操作二
  9. SAP ABAP BASE64 MD5 加解密
  10. 概述-数据建模是什么?