论文信息

name_en: High Fidelity Neural Audio Compression
name_ch: 高保真神经音频压缩
paper_addr: http://arxiv.org/abs/2210.13438
date_read: 2023-04-27
date_publish: 2022-10-24
tags: [‘深度学习’,‘音频’]
author: Alexandre Défossez, Meta AI, FAIR Team
code: github.com/facebookresearch/encodec

1 读后感

方法与SoundStream相似,模型主要使用了卷积,LSTM,还加入Transformer优化量化单元,以减少带宽。

2 摘要

Encodec也是一个音频编码器 audio codec,包括编码器-解码器架构、量化方法和感知损失等要素。EnCodec在多个音频压缩比和采样率条件下,在语音和音乐的压缩中均达到了最先进的质量水平。
文章还讨论了神经网络压缩模型的两个问题:如何表示噪音和如何高效地压缩,作者通过构建大而多元化的训练集和引入辨别器网络,解决了第一个问题,而通过引入熵编码和实时模式流的控制来解决第二个问题。
检验了EnCodec的运算速度、实时和压缩效果,得到了较好的实验效果。

3 方法

模型由编码器,量化器,解码器三部分组成。

3.1 编解码器结构

如图所示,主要使用卷积结构。另外,同时提供针对流式数据和非流式数据的处理方法。

3.2 残差向量量化

同StreamSound类似,通过在训练时选择不同数量的残差步骤,可以使用单个模型支持多个带宽目标

3.3 语言建模和熵编码

另外训练了一个小型基于Transformer的语言模型,旨在通过单个CPU核心保持快于实时的端到端压缩/解压缩速度。
该模型包括5层、8个头、200个通道、每个前馈块的维度为800,没有dropout。
在训练时,选择一个带宽和相应的codebook数量Nq。对于时间步t,从时间t-1得到的离散表示使用学习的嵌入表之一变换成连续表示,然后相加。
Transformer的输出被馈送到Nq个线性层,并且每个线性层输出通道的数量与每个codebook的基数(例如1024)相同,这样可以给在时间t上估计占用每个codebook的分布的对数。
因此,在单个时间步骤上忽略了潜在的码书之间的互信息。这样就可以加速推理,并且对最终交叉熵的影响有限

3.4 训练目标

目标函数结合了重建损失,判别损失,以及量化损失。

其中x是原始音频,x^是生成音频;

  • 重建损失包含时域损失lt和频域损失lf

    • lt:评价了音频帧的差异
    • lf:评价了多个时间尺度在梅尔频谱的差异
  • 对抗损失

* lg:对抗中的判断器,评价了判别器的损失,引入了基于多尺度短时傅里叶变换(MS-STFT) 鉴别器的感知损失项
* lfeat:对抗中的生成器,评价了音频之间特征的差异,为生成器添加了相对特征匹配损失,

lw:VQ承诺损失,用于计算 zc 当前残差和 qc(zc) 相应码本中最近的条目的差异。
lr:另外,还训练一个小型 Transformer 语言模型(可选),用于使用在量化单元上进行熵编码,以进一步减少带宽。

3.5 损失函数的参数

引入了一个损失平衡器,平衡器可以更容易地推断出不同的损失权重,每个权重都可以解释为来自相应损失的模型梯度的分数。

论文阅读_音频压缩_Encodec相关推荐

  1. 论文阅读_音频压缩_SoundStream

    论文信息 number headings: auto, first-level 2, max 4, _.1.1 name_en: SoundStream: An End-to-End Neural A ...

  2. 论文阅读_人脸检测:S3FD: Single Shot Scale-invariant Face Detector

    我的博客已全部迁往个人博客站点:oukohou.wang,敬请前往-- 写在前面:记录一下论文阅读的收获,不然怕久远之后,就不记得了- 1. Sum up S3FD是2017年发表在arXiv上的一篇 ...

  3. 论文阅读_基于深度学习的异常检测综述

    英文题目:Deep Learning for Anomaly Detection: A Review 中文题目:基于深度学习的异常检测综述 论文地址:https://arxiv.org/pdf/200 ...

  4. 论文阅读_深度学习的医疗异常检测综述

    英文题目:Deep Learning for Medical Anomaly Detection - A Survey 中文题目:深度学习的医疗异常检测综述 论文地址:https://arxiv.or ...

  5. 论文阅读_胶囊网络CapsNet

    介绍 英文题目:Dynamic Routing Between Capsules 中文题目:胶囊之间的动态路由 论文地址:https://papers.nips.cc/paper/2017/file/ ...

  6. 论文阅读_基于知识图谱的约束性问答

    介绍 英文题目:Constraint-Based Question Answering with Knowledge Graph 中文题目:基于知识图谱的约束性问答 论文地址:https://read ...

  7. 论文阅读_中文医学预训练模型_MC-BERT

    介绍 英文题目:Conceptualized Representation Learning for Chinese Biomedical Text Mining 中文题目:中文生物医学文本挖掘中的概 ...

  8. 论文阅读_对比学习_SimCSE

    英文题目:SimCSE: Simple Contrastive Learning of Sentence Embeddings 中文题目:SimSCE:用简单的对比学习提升句嵌入的质量 论文地址:ht ...

  9. 论文阅读_广义加性模型_GAMs

    英文题目:Intelligible Models for Classification and Regression 中文题目:可理解的分类和回归模型 论文地址:https://www.doc88.c ...

最新文章

  1. 【OpenCV 4开发详解】图像LUT查找表
  2. 我是发起人Sumtec
  3. KubeVela 1.0 :开启可编程式应用平台的未来
  4. springcloud 03_SpringCloud概述
  5. 数据结构 二叉树的存储结构_线程二叉树| 数据结构
  6. 深层神经网络——过拟合问题
  7. 【彩彩只能变身队】用户需求分析(一)—— 调查问卷
  8. 获取页面元素的滚动位置,兼容各浏览器
  9. 看完这篇,终于知道自己会不会 C# 泛型了!
  10. 揭露一种通过网络实施ATM诈骗的手段!
  11. jQuery实现照片墙,附步骤详解
  12. 切断数据感知控件,大大提升软件运行速度
  13. 【ACM夏训】综合训练赛
  14. 《微软System Center 2012 R2私有云部署实战》——1.4 微软私有云
  15. java碰撞检测代码_java 实现精确碰撞检测。
  16. MyBatis学习(二)--利用MyBatis实现CRUD操作
  17. X.509证书DN之详解
  18. Windows Azure系列-- Azure Table的CRUD操作
  19. itextpdf截取pdf文件为新文件
  20. 电能管理系统在惠氏公司的应用

热门文章

  1. mysql 统计日活、周活、月活
  2. 车载ECU嵌入式设备的诊断测试 – DTC
  3. 夜雨数竞笔记-不定积分(5)-待定系数法-有理分式
  4. SuperMap iDesktop三维点构建地质体
  5. Sep 15 FullCalendar日历插件说明文档
  6. 论文阅读:6-PACK
  7. uniapp 重力感应关闭
  8. Cycle GAN(复现)---笔记
  9. 【greenplum_installer】GP一键安装教程
  10. storm 实战及实例讲解(三)