基于Sparsely-Gated Experts的Parameter-Efficient Conformers在端到端语音识别中的应用

摘要

虽然Transformer及其变体Conformer在语音识别中表现出良好的性能，但大量的参数导致在训练和推理过程中消耗大量的内存。一些研究采用跨层参数共享的方法来减少模型的参数。然而，这在一定程度上损害了模型的性能。

为了解决这一问题，本文通过Sparsely-Gated Experts提出了一种新的的Conformer。具体地说，我们使用Mixture-of-Expert(MoE)在不增加计算量的情况下扩展Conformer块的容量。然后，分组的Conformer块之间共享参数，从而减少参数的数量。其次，为了保证共享块具有适应不同层次表征的灵活性，分别设计了MoE routers和normalization。此外，我们使用知识蒸馏来进一步提高性能。实验结果表明，与全参数模型相比，该模型只需要1/3的编码器参数就能获得具有竞争力的性能。

模型架构

架构的总体还是一个Conformer模型，其中Conformer Block有G组，每组有C个Conformer Block，不同组之间的对应Conformer Block之间共享参数（图中相同颜色的Conformer Block共享参数），从而模型可以看成一组具有C个Conformer Block的结构循环执行了G次。

参数共享弱化了模型的能力，因此，为了提高模型容量但不增加计算量，在每个Conformer Block的第二个FFN模块中引入MoE，每个Conformer Block的第二个MoE层都激活了不同的专家（或者说每个专家的权重不一样）来计算FFN，具体形式如图中最右边，计算过程可以表达如下，其中g代表每个专家的权重：

Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition相关推荐

《Improving speech recognition by revising gated recurrent units》
作者:Mirco Ravanelli , Philemon Brakel , Maurizio Omologo , Yoshua Bengio 来源:Interspeech 2017 摘要部分: 本 ...
Improving speech recognition by revising gated recurrent units
Improving speech recognition by revising gated recurrent units 通过修改门控循环单元改善语音识别. 一般的 GRU 架构本论文提出的 ...
FPGA 17最佳论文导读 ESE: Efficient Speech Recognition Engine with Compressed LSTM on FPGA
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.机器学习技术感兴趣的同学加入. 后面陆续写一些关于神经网络加 ...
Data efficient parameter efficient tuning 助教姜成翰
2022 - 如何有效的使用自督导式模型 - Data-Efficient & Parameter-Efficient Tuning_哔哩哔哩_bilibili Recent advances ...
End-to-end Audio-visual Speech Recognition with Conformers
简介提出了可端到端训练的音视语音识别模型,输入waveform和唇部的每一帧,音视各通过一个conformer encoder后concat并FC得到融合特征,最后是transformer deco ...
[索引]引用Balancing bike sharing systems with constraint programming的文章
文章目录 1. Dynamic container drayage with uncertain request arrival times and service time windows 2. P ...
【论文翻译】Few Sample Knowledge Distillation for Efficient Network Compression
Few Sample Knowledge Distillation for Efficient Network Compression 用于高效网络压缩的少样本知识提取论文地址:https://ar ...
LLMs：《Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca》翻译与解读
LLMs:<Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca>翻译与解读目录相关文章 LLMs:&l ...
LLMs之Guanaco：《QLoRA：Efficient Finetuning of Quantized LLMs》翻译与解读
LLMs之Guanaco:<QLoRA:Efficient Finetuning of Quantized LLMs>翻译与解读导读:本文介绍了QLORA,一种高效的微调方法.利用QLo ...

Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition

基于Sparsely-Gated Experts的Parameter-Efficient Conformers在端到端语音识别中的应用

摘要

模型架构

Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition相关推荐

最新文章

热门文章