基于Sparsely-Gated Experts的Parameter-Efficient Conformers在端到端语音识别中的应用

摘要

虽然Transformer及其变体Conformer在语音识别中表现出良好的性能,但大量的参数导致在训练和推理过程中消耗大量的内存。一些研究采用跨层参数共享的方法来减少模型的参数。然而,这在一定程度上损害了模型的性能。

为了解决这一问题,本文通过Sparsely-Gated Experts提出了一种新的的Conformer。具体地说,我们使用Mixture-of-Expert(MoE)在不增加计算量的情况下扩展Conformer块的容量。然后,分组的Conformer块之间共享参数,从而减少参数的数量。其次,为了保证共享块具有适应不同层次表征的灵活性,分别设计了MoE routers和normalization。此外,我们使用知识蒸馏来进一步提高性能。实验结果表明,与全参数模型相比,该模型只需要1/3的编码器参数就能获得具有竞争力的性能。

模型架构


架构的总体还是一个Conformer模型,其中Conformer Block有G组,每组有C个Conformer Block,不同组之间的对应Conformer Block之间共享参数(图中相同颜色的Conformer Block共享参数),从而模型可以看成一组具有C个Conformer Block的结构循环执行了G次。

参数共享弱化了模型的能力,因此,为了提高模型容量但不增加计算量,在每个Conformer Block的第二个FFN模块中引入MoE,每个Conformer Block的第二个MoE层都激活了不同的专家(或者说每个专家的权重不一样)来计算FFN,具体形式如图中最右边,计算过程可以表达如下,其中g代表每个专家的权重:

Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition相关推荐

  1. 《Improving speech recognition by revising gated recurrent units》

    作者:Mirco Ravanelli , Philemon Brakel , Maurizio Omologo  , Yoshua Bengio 来源:Interspeech 2017 摘要部分: 本 ...

  2. Improving speech recognition by revising gated recurrent units

    Improving speech recognition by revising gated recurrent units   通过修改门控循环单元改善语音识别. 一般的 GRU 架构 本论文提出的 ...

  3. FPGA 17最佳论文导读 ESE: Efficient Speech Recognition Engine with Compressed LSTM on FPGA

    欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入. 后面陆续写一些关于神经网络加 ...

  4. Data efficient parameter efficient tuning 助教 姜成翰

    2022 - 如何有效的使用自督导式模型 - Data-Efficient & Parameter-Efficient Tuning_哔哩哔哩_bilibili Recent advances ...

  5. End-to-end Audio-visual Speech Recognition with Conformers

    简介 提出了可端到端训练的音视语音识别模型,输入waveform和唇部的每一帧,音视各通过一个conformer encoder后concat并FC得到融合特征,最后是transformer deco ...

  6. [索引]引用Balancing bike sharing systems with constraint programming的文章

    文章目录 1. Dynamic container drayage with uncertain request arrival times and service time windows 2. P ...

  7. 【论文翻译】Few Sample Knowledge Distillation for Efficient Network Compression

    Few Sample Knowledge Distillation for Efficient Network Compression 用于高效网络压缩的少样本知识提取 论文地址:https://ar ...

  8. LLMs:《Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca》翻译与解读

    LLMs:<Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca>翻译与解读 目录 相关文章 LLMs:&l ...

  9. LLMs之Guanaco:《QLoRA:Efficient Finetuning of Quantized LLMs》翻译与解读

    LLMs之Guanaco:<QLoRA:Efficient Finetuning of Quantized LLMs>翻译与解读 导读:本文介绍了QLORA,一种高效的微调方法.利用QLo ...

最新文章

  1. centos 查看mysql 服务器配置_在CentOS上MySQL数据库服务器配置方法
  2. 2140: 学无止境(差分)
  3. MyEclipse Web 项目的图标和右键New菜单
  4. 【Paper】2019_Distributed Optimal Control of Energy Storages in a DC Microgrid with Communication Dela
  5. 某厂家精密空调精品培训资料
  6. npm中package.json详解
  7. suse 内核编译安装_升级SUSE Linux内核的完整步骤!
  8. char java 回文_LeetCode刷题笔记(Java)---第1-18题
  9. Flume1.5.0的安装、部署、简单应用(含伪分布式、与hadoop2.2.0、hbase0.96的案例)
  10. Bootstrap 排版列表
  11. asp.net core系列 67 Web压力测试工具WCAT
  12. Dialog的半透明背景的灰度
  13. [FJWC2018]欧拉函数
  14. html tbody增加行,实现所有行变色,所有行删除。给出的结构中少了tbody,加上就可以了。...
  15. Android Webview调相机拍照选择图片并显示到网页
  16. P6跨级晋升P8再到P10,我的11年成长之路
  17. creo2.0+VS2010采用protoolkit二次开发环境配置(64位win7)
  18. 徒手写代码之《机器学习实战》-----决策树算法(2)(使用决策树预测隐形眼镜类型)
  19. 移植智能ABC输入法到Windows XP
  20. 强大的ElasticSearch-入门-了解-精通

热门文章

  1. 学1个月爬虫就月赚6000?别被骗了,老师傅告诉你爬虫的真实情况!
  2. c#操作符operate的用法
  3. SpringBoot中使用本地缓存
  4. 如何构建阿里API请求数据
  5. 2019华为软件挑战赛初赛代码开源分享
  6. easypoi 导出文本图片Excel
  7. 【大话三国】揭秘蜀汉五虎将的真相
  8. 基于matlab的磁悬浮控制系统,基于MatLab的磁悬浮球控制系统的设计
  9. Nand Flash简介-2
  10. prometheus监控java应用的jvm指标