Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition
基于Sparsely-Gated Experts的Parameter-Efficient Conformers在端到端语音识别中的应用
摘要
虽然Transformer及其变体Conformer在语音识别中表现出良好的性能,但大量的参数导致在训练和推理过程中消耗大量的内存。一些研究采用跨层参数共享的方法来减少模型的参数。然而,这在一定程度上损害了模型的性能。
为了解决这一问题,本文通过Sparsely-Gated Experts提出了一种新的的Conformer。具体地说,我们使用Mixture-of-Expert(MoE)在不增加计算量的情况下扩展Conformer块的容量。然后,分组的Conformer块之间共享参数,从而减少参数的数量。其次,为了保证共享块具有适应不同层次表征的灵活性,分别设计了MoE routers和normalization。此外,我们使用知识蒸馏来进一步提高性能。实验结果表明,与全参数模型相比,该模型只需要1/3的编码器参数就能获得具有竞争力的性能。
模型架构
架构的总体还是一个Conformer模型,其中Conformer Block有G组,每组有C个Conformer Block,不同组之间的对应Conformer Block之间共享参数(图中相同颜色的Conformer Block共享参数),从而模型可以看成一组具有C个Conformer Block的结构循环执行了G次。
参数共享弱化了模型的能力,因此,为了提高模型容量但不增加计算量,在每个Conformer Block的第二个FFN模块中引入MoE,每个Conformer Block的第二个MoE层都激活了不同的专家(或者说每个专家的权重不一样)来计算FFN,具体形式如图中最右边,计算过程可以表达如下,其中g代表每个专家的权重:
Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition相关推荐
- 《Improving speech recognition by revising gated recurrent units》
作者:Mirco Ravanelli , Philemon Brakel , Maurizio Omologo , Yoshua Bengio 来源:Interspeech 2017 摘要部分: 本 ...
- Improving speech recognition by revising gated recurrent units
Improving speech recognition by revising gated recurrent units 通过修改门控循环单元改善语音识别. 一般的 GRU 架构 本论文提出的 ...
- FPGA 17最佳论文导读 ESE: Efficient Speech Recognition Engine with Compressed LSTM on FPGA
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入. 后面陆续写一些关于神经网络加 ...
- Data efficient parameter efficient tuning 助教 姜成翰
2022 - 如何有效的使用自督导式模型 - Data-Efficient & Parameter-Efficient Tuning_哔哩哔哩_bilibili Recent advances ...
- End-to-end Audio-visual Speech Recognition with Conformers
简介 提出了可端到端训练的音视语音识别模型,输入waveform和唇部的每一帧,音视各通过一个conformer encoder后concat并FC得到融合特征,最后是transformer deco ...
- [索引]引用Balancing bike sharing systems with constraint programming的文章
文章目录 1. Dynamic container drayage with uncertain request arrival times and service time windows 2. P ...
- 【论文翻译】Few Sample Knowledge Distillation for Efficient Network Compression
Few Sample Knowledge Distillation for Efficient Network Compression 用于高效网络压缩的少样本知识提取 论文地址:https://ar ...
- LLMs:《Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca》翻译与解读
LLMs:<Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca>翻译与解读 目录 相关文章 LLMs:&l ...
- LLMs之Guanaco:《QLoRA:Efficient Finetuning of Quantized LLMs》翻译与解读
LLMs之Guanaco:<QLoRA:Efficient Finetuning of Quantized LLMs>翻译与解读 导读:本文介绍了QLORA,一种高效的微调方法.利用QLo ...
最新文章
- centos 查看mysql 服务器配置_在CentOS上MySQL数据库服务器配置方法
- 2140: 学无止境(差分)
- MyEclipse Web 项目的图标和右键New菜单
- 【Paper】2019_Distributed Optimal Control of Energy Storages in a DC Microgrid with Communication Dela
- 某厂家精密空调精品培训资料
- npm中package.json详解
- suse 内核编译安装_升级SUSE Linux内核的完整步骤!
- char java 回文_LeetCode刷题笔记(Java)---第1-18题
- Flume1.5.0的安装、部署、简单应用(含伪分布式、与hadoop2.2.0、hbase0.96的案例)
- Bootstrap 排版列表
- asp.net core系列 67 Web压力测试工具WCAT
- Dialog的半透明背景的灰度
- [FJWC2018]欧拉函数
- html tbody增加行,实现所有行变色,所有行删除。给出的结构中少了tbody,加上就可以了。...
- Android Webview调相机拍照选择图片并显示到网页
- P6跨级晋升P8再到P10,我的11年成长之路
- creo2.0+VS2010采用protoolkit二次开发环境配置(64位win7)
- 徒手写代码之《机器学习实战》-----决策树算法(2)(使用决策树预测隐形眼镜类型)
- 移植智能ABC输入法到Windows XP
- 强大的ElasticSearch-入门-了解-精通