前言

即时通讯应用中的实时音视频技术,几乎是IM开发中的最后一道高墙。原因在于:实时音视频技术 = 音视频处理技术 + 网络传输技术 的横向技术应用集合体,而公共互联网不是为了实时通信设计的。

系列文章

  • 《即时通讯音视频开发(四):视频编解码之预测技术介绍》
  • 《即时通讯音视频开发(五):认识主流视频编码技术H.264》

说说音频编解码技术学习方法

总是有人问我研究音频编解码要看什么书,其实这是一个很难回答的问题,原因有很多:

  • 做工程首先一个问题就是和课本学习不同,不是看书能解决的。
  • 音频编解码技术在国内研究的人很少,包括总体的音频技术国外也研究不多。(从中国的潜艇噪声技术一直解决不好就能看出一二)。
  • 音频编解码技术是一种应用,而一般的书籍都是讲理论基础。

只看理论书籍会和应用脱离太多,没有实践会忘记。我当初看书也是从工程入手,就是在实际工作中和个人兴趣中看了大量的标准,然后对不懂的地方找论文,再找书籍补知识,这是典型的逆向学习。通常研究生是“课本->看论文->做工程”这样一个学习方法和流程。

我们可以按照什么样的思路去找书籍或论文呢?

音频编解码技术是一种比较复杂的应用,而普通的书籍是一种理论书籍,尤其是在中国。音频编解码技术和一般的音频技术不同,比如AEC,HRTF,后者分别是语音和音频的应用技术,应该说是一种具体的应用技术,相对来说查资料还是容易有的放矢。

具体来说,其实音频编解码技术也是一种具体的应用技术,但是可能系统相对复杂,目的相对基础。它是信源编解码技术的一个分支,目的就是压缩数据。

那么音频编解码技术包括哪些方面呢?既然他是一种信源编解码器技术(Source Coding Technology)那么信源编解码技术的书籍都可以看,当做是理论基础学习。

另外其实我把音频编解码技术分为5大技术,简称为:EQTPM。E-熵编码、Q-量化编码、T-变换编码、P-预测编码、M-音频建模(感知建模,BCC建模,正弦建模等)。相对的,学习时我们可以按照这些技术进行相关书籍的查阅和学习。

具体的书籍可以分成以下4类

1语音编解码书籍

因为国内讲宽带音频编解码的书籍很少,所以可以看些语音编解码的书籍,里面也有讲EQTP技术。例如:《语音处理技术》,《语音编码》,《低码率音频编码》,《数字语音编码原理》,《变速率语音编码》《低速率语音编码》《数字语音编码》《数据压缩》。

《JPEG2000 图像压缩基础》:我认为这本书讲的还是不错的,翻译的也不错,很多基本原理讲的比较透彻。

2理论基础书籍

《信息论与编码》,《信号与系统》,高数这类我就不但列出来了,但是也要常番。

3国外的宽音频编码书籍

例如我认为很经典的ANDREAS SPANIAS的《Audio Signal Processing and Coding 》。以及他的63页的论文,《Perceptual Coding of Digital Audio》。

其他可看的书籍包括:

  • MP3之父——K. Brandenburg的:
    《Applications of Digital Signal Processing to Audio and Acoustics》
    《A Digital Signal Processing Primer, with Applications to Digital Audio and Computer Music》
    《Auditory Perception and the MPEG Audio Standard》
    《Foundation and Evolution of Standardized Coders (Wiley,2003)(ISBN 0471373125)(578s)》
  • 汉堡联邦国防军大学Udo Zolzer教授的:
    《Digital Audio Signal Processing》
    《High-Fidelity Multichannel Audio Coding》
    《Speech Coding Algorithms》

我强烈推荐把SPANIAS的书读一下。至少把SPANIAS的那个论文仔细看一下。这样会对你理解音频编码有很大的帮助。但是里面会将很多关于耳朵的生理词语,要拿着字典慢慢翻。这个论文我是烦烂了的,使我受益匪浅。

后面的书籍我还没有系统看过,但都有PDF版本,我也是偶尔翻一下。因为这些经典书籍你不花大时间理解,会造成假象是乍看起来都讲得类似,但实际理解起来发现是对不同细节的阐述。

4其他类书籍

专项技术书籍:

  • 如《自适应信号处理》,因为音频编码也好其他音频技术也好,自适应技术是经常使用的。
    例如:无损编码的Wavpack,MPEG4 ALS,都使用了自适应技术。
  • 滤波器设计的相关书籍。
  • 《多抽样率数字信号处理理论及其应用》:讲解Transform技术。
  • HE-AAC和ATRAC3,使用的QMF,
  • MP3 使用的PQF
  • AAC,MP3使用的MDCT
  • AC3使用的TDAC(MDCT)
  • WMA和G722.1的(MLT)

都是为什么,选择这些变换工具。有什么区别。如果你能看看Vaidyananthan PP的书,会更有帮助。

一些开创性的研究论文也可以读一读

除了这些书籍,建议大家多看看论文,很多国外的大学都有专门的论文和PPT教学。

1会议论文

有的讲的很有点概况,有的有些对原理公式还是讲的比较清楚,还有一些强调系统性和介绍的。例如:伦敦学院的《A Survey of Packet Loss Recovery Techniques for Streaming Audio》 对PLC技术做了系统归纳L Daudet的《A review on techniques for the extraction of transients in musical signals》对瞬态信号提取技术做了归纳。

2毕业论文

这里我举2个例子,文章太多我就截屏解释吧。

经典PPT

很多大学和机构开放课程会有一些经典PPT。例如:德国Fraunhofer的主页就有很多奖MPEG系列音频编码技术的PPT。非常好,非常推荐。

结语

当然除了书籍、论文以外,我们还可以看一些常用的网址,我就给一个好了,超经典的斯坦福大学 Julius Orion Smith III 教授的主页:https://ccrma.stanford.edu/~jos/,见下图哦。

不说了,自己看吧,引用里面的介绍–(1GB of on-line publications, sound examples, and software )。总之,馒头要一口一口吃,耐心些,开始吧!

网易云信,你身边的即时通讯和音视频技术专家,了解我们,请戳网易云信官网

想要行业洞察和技术干货,请关注网易云信博客

本文转载自52im,作者:JackJiang

即时通讯音视频开发(六):如何开始音频编解码技术的学习相关推荐

  1. 即时通讯音视频开发(八):常见的实时语音通讯编码标准

    前言 即时通讯应用中的实时音视频技术,几乎是IM开发中的最后一道高墙.原因在于:实时音视频技术 = 音视频处理技术 + 网络传输技术 的横向技术应用集合体,而公共互联网不是为了实时通信设计的. 系列文 ...

  2. 即时通讯音视频开发(七):音频基础及编码原理入门

    前言 即时通讯应用中的实时音视频技术,几乎是IM开发中的最后一道高墙.原因在于:实时音视频技术 = 音视频处理技术 + 网络传输技术 的横向技术应用集合体,而公共互联网不是为了实时通信设计的. 系列文 ...

  3. 即时通讯音视频开发(十八):详解音频编解码的原理、演进和应用选型

    1.引言 大家好,我是刘华平,从毕业到现在我一直在从事音视频领域相关工作,也有一些自己的创业项目,曾为早期Google Android SDK多媒体架构的构建作出贡献. 就音频而言,无论是算法多样性, ...

  4. 即时通讯音视频开发(0):零基础,史上最通俗视频编码技术入门

    [来源申明]本文引用了微信公众号"鲜枣课堂"的<视频编码零基础入门>文章内容.为了更好的内容呈现,即时通讯网在引用和收录时内容有改动,转载时请注明原文来源信息,尊重原作 ...

  5. 即时通讯音视频开发(十):实时语音通讯的回音消除技术详解

    前言 即时通讯应用中的实时音视频技术,几乎是IM开发中的最后一道高墙.原因在于:实时音视频技术 = 音视频处理技术 + 网络传输技术 的横向技术应用集合体,而公共互联网不是为了实时通信设计的.有关实时 ...

  6. 即时通讯音视频开发(十四):实时音视频数据传输协议介绍

    概述 随着移动互联网的快速发展以及智能终端性能的逐步提高,智能终端间进行实时音视频通讯成为移动互联网发展的一个重要方向.那么如何保证智能终端之间实时音视频数据通讯成为一个很现实的问题. 实际上,实时音 ...

  7. 即时通讯音视频开发(五):认识主流视频编码技术H.264

    前言 即时通讯应用中的实时音视频技术,几乎是IM开发中的最后一道高墙.原因在于:实时音视频技术 = 音视频处理技术 + 网络传输技术 的横向技术应用集合体,而公共互联网不是为了实时通信设计的. 系列文 ...

  8. 即时通讯音视频开发(三):视频编解码之编码基础

    前言 即时通讯应用中的实时音视频技术,几乎是IM开发中的最后一道高墙.原因在于:实时音视频技术 = 音视频处理技术 + 网络传输技术 的横向技术应用集合体,而公共互联网不是为了实时通信设计的. 系列文 ...

  9. 即时通讯音视频开发(二):视频编解码之数字视频介绍

    前言 即时通讯应用中的实时音视频技术,几乎是IM开发中的最后一道高墙.原因在于:实时音视频技术 = 音视频处理技术 + 网络传输技术 的横向技术应用集合体,而公共互联网不是为了实时通信设计的. 系列文 ...

最新文章

  1. Battle for Wesnoth 1.8.4,开源战斗游戏
  2. python【蓝桥杯vip练习题库】ALGO-142 P1103(复数运算)
  3. 01_Win10下CUDA的安装、查看并升级Nvidia显卡驱动、安装CUDA、设置环境变量、测试CUDA是否安装成功
  4. 在ARM Linux下使用GPIO模拟SPI时序详解
  5. SpringBoot(十) :邮件服务
  6. signed 与 unsigned 有符号和无符号数
  7. 不是区块链的特征_上市公司日照港物流区块链平台上线,不是谁都能玩“区块链+物流”?...
  8. Python的第三方库xlrd
  9. php libswf,PHP停解析swf文件头
  10. ftp用的是tcp还是udp_TCP与UDP的区别究竟在哪
  11. mysql workbench首页_MySQL Workbench是干什么的?
  12. 小程序input绑定输入保存数据
  13. Blender自动化建模入门
  14. oracle translate using,oracle translate() 详解
  15. 人工智能技术涉及到的学科有哪些,22年最新
  16. SAP中汇率取值选择逻辑分析测试
  17. 解决我无限网络只能上QQ不能上网的问题!!
  18. MySQL 23道经典面试吊打面试官
  19. JQuery表单的提交方式
  20. 华为交换机 查ip冲突_交换机如何设置控制IP地址冲突故障

热门文章

  1. Erlang虚拟机的启动
  2. 记录学习MVC过程,HTML铺助类(二)
  3. QTP之对测试用例的自动化过程的分解
  4. 异构并行编程(CUDA)结课证书
  5. 大智慧数据文件python_马克的Python学习笔记#模块和包 3
  6. 2021-11-11Object类
  7. 安装 | Window下Visual Studio VS2015 VS2017 各版本下载地址
  8. 数据结构学习笔记(七):哈希表(Hash Table)
  9. 医疗器械软件网络安全法规和标准概述(附所有标准)
  10. mandatory oracle 字段,Oracle 数据库需要在2019年April之前Mandatory升级的说明