秒懂音视频开发学习笔记

  • 01_移动通信技术的发展
  • 02_重识图片
  • 03_Windows开发环境搭建
  • 04_Qt开发基础
  • 05_重识声音
  • 06_重识音频
  • 07_音频录制01_命令行
  • 08_音频录制02_编程
    • Qt 中的几种输出方式
  • 09_播放PCM
  • 10_PCM 转 WAV
  • 11_音频重采样 (Audio Resample)

学习视频源于小码哥的:音频、图像及视频技术课程
MJ老师的文章内容很详细,我就不自己整理了,具体内容可以参考MJ的博客,每一个标题下都有
我会理一份大纲出来,同时记录一些MJ文章里没有写的内容

我的音视频开发代码: https://gitee.com/szluyu99/audio-video-dev

01_移动通信技术的发展

MJ老师的博客:【秒懂音视频开发】01_移动通信技术的发展

  • 1G:语音时代
  • 2G:文字时代
  • 3G:图片时代
  • 4G:视频时代
  • 5G:新的时代

02_重识图片

MJ老师的博客:【秒懂音视频开发】17_重识图片

  • 像素
  • RGB颜色模型
  • 位深度

LCD屏 原理:

LCD屏OLED屏 对比:

bmp文件格式:

  • 前54个字节: 文件头
  • 54个字节以后:以 B、G、R 的顺序显示每一个像素的颜色
  • 字节显示顺序对应图像是从左下角开始,依次往上

03_Windows开发环境搭建

MJ老师的博客:【秒懂音视频开发】04_Windows开发环境搭建

  • 跨平台的音视频开发库:FFmpeg
  • GUI库:Qt,开发工具:QtCreator
  • Qt 集成 FFmpeg

MC老师的博客:【秒懂音视频开发】05_Mac开发环境搭建

04_Qt开发基础

MJ老师的博客:【秒懂音视频开发】06_Qt开发基础

  • 控件的基本使用
  • 信号与槽
    • 基本使用connect(信号的发送者, 信号, 信号的接收者, 槽);
    • 自定义信号
      信号的发送者
      信号的接收者
      连接
      参数和返回值信号的参数个数必须 >= 槽的参数个数
    • 连接两个信号,注意传递关系
    • Lambda处理点击事件:
      connect(btn, &QPushButton::clicked,[](int a) { qDebug() << "点击了按钮"; });
    • 自定义槽函数
      mainWindow.h下自定义槽函数的声明,在mainWindow.cpp下实现自定义槽函数;
      连接:connect(btn, &QPushButton::clicked, this, &MainWindow::handleExit);
    • 使用 .ui 文件进行信号与槽的连接
      命名:on_控件对象名_槽函数名,例如 on_loginButton_clicked()

05_重识声音

MJ老师的博客:【秒懂音视频开发】02_重识声音

  • 声波:空气的振动带来了动能,能量传入了耳朵中,最后就听到了声音

    • 振幅:从平衡位置到最大位移位置之间的距离
    • 周期:空气分子完全来回振动一次所花费的时间,单位:秒(s)
    • 频率:物体每秒来回振动的次数,单位:赫兹(Hz)
      频率 = 1 / 周期
  • 音调:频率越高,音调越高
  • 响度:当提高声音的响度(音量,大小)时,振动的幅度会变大
    常用 dB(分贝)来描述声音的响度
  • 音色:是指声音的特色
  • 噪音

06_重识音频

MJ老师的博客:【秒懂音视频开发】03_重识音频

PCM(Pulse Code Modulation) - 脉冲编码调制

  • 采样:每隔一段时间采集一次模拟信号的样本,在时间上将模拟信号离散化(把连续信号转换成离散信号)的过程

    • 采样率:每秒采集的样本数量
    • 采样定理:只有当采样率高于声音信号最高频率的2倍时,才能把采集的声音信号唯一地还原成原来的声音
  • 量化:将每一个采样点的样本值数字化
    • 位深度:使用多少个二进制位来存储一个采样点的样本值
  • 编码:将采样和量化后的数字数据转成二进制码流

  • 其他概念
    • 声道
    • 比特率
    • 信噪比

音频的编码与解码:

  • 编码:将未经压缩的原始音频数据PCM,使用某种音频编码压缩,再存成某种音频文件格式
    压缩可分为:有损压缩、无损压缩

  • 解码:

常见的音频编码和文件格式

  • 无损编码:Monkey’s Audio、FLAC、ALAC
  • 有损编码:MP3、WMA、AAC、Vorbis、Speex、Opus
  • 文件格式:Ogg、WAV、AIFF

就算是 PCM数据,也只是相对无损,任何音频编码其实都是有损的

07_音频录制01_命令行

MJ老师的博客:【秒懂音视频开发】07_音频录制01_命令行

FFmpeg相关命令:

  • ffmpeg:对音视频进行编解码
  • ffprobe:查看音视频的参数信息
  • ffplay:播放音视频
  • 参数-hide_bannder:隐藏一些冗余的描述信息

通过命令行录音:

  • 查看可用设备:ffmpeg -devices
  • 查看dshow支持的设备:ffmpeg -f dshow -list_devices true -i dummy
  • 指定设备进行录音:ffmpeg -f dshow -i audio="麦克风阵列 (Realtek(R) Audio)" out.wav
  • 设置dshow的参数:
ffmpeg -f dshow -sample_rate 15000 -sample_size 16 -channels 1 -i audio="麦克风阵列 (Realtek(R) Audio)" out.wav

08_音频录制02_编程

MJ老师的博客:https://www.cnblogs.com/mjios/p/14540642.html

本章代码:https://gitee.com/szluyu99/audio-video-dev/tree/master/09_record_audio_sub_thread


查看 PCM 的格式:

ffmpeg -formats | findstr PCM
DE alaw            PCM A-law
DE f32be           PCM 32-bit floating-point big-endian
DE f32le           PCM 32-bit floating-point little-endian
DE f64be           PCM 64-bit floating-point big-endian
DE f64le           PCM 64-bit floating-point little-endian
DE mulaw           PCM mu-law
DE s16be           PCM signed 16-bit big-endian
DE s16le           PCM signed 16-bit little-endian
....

由 dshow 采集的数据默认是 DE s16be PCM signed 16-bit big-endian 格式的

因此通过 ffmpeg 播放采集到的 out.pcm 指令如下:

ffplay -ar 44100 -ac 2 -f s16le out.pcm

通过 ffprobe 查看采集到的 out.pcm 数据:

ffprobe -ar 44100 -ac 2 -f s16le out.pcm
Input #0, s16le, from 'out.pcm':Duration: 00:00:25.00, bitrate: 1411 kb/sStream #0:0: Audio: pcm_s16le, 44100 Hz, 2 channels, s16, 1411 kb/s

Qt 中的几种输出方式

如果采用 C语言、C++、FFmpeg 的输出方式都需要刷新输出流(缓冲区),因此在 Qt 项目中建议使用 qDebug() 的输出方式。

// C语言
printf("printf----");// C++
std::cout << "std::cout----";// FFmpeg
av_log_set_level(AV_LOG_INFO);
av_log(nullptr, AV_LOG_ERROR, "av_log1----");
av_log(nullptr, AV_LOG_INFO, "av_log2----");
av_log(nullptr, AV_LOG_WARNING, "av_log3----");
// 日志级别:用于过滤日志输出
// TRACE < DEBUG < INFO < WARNING < ERROR < FATAL < QUIET// 刷新标准输出流
fflush(stdout);
fflush(stderr);// Qt
qDebug() << "qDebug()----";

09_播放PCM

MJ老师的博客:【秒懂音视频开发】09_播放PCM

本章代码:https://gitee.com/szluyu99/audio-video-dev/tree/master/11_sdl_play_pcm

这期的代码很有搞头,要好好消化一下。

播放 PCM:

  • 初始化子系统
  • 打开音频设备
  • 打开文件
  • 开始播放
  • 回调函数
  • 释放资源

10_PCM 转 WAV

MJ老师的博客:【秒懂音视频开发】10_PCM 转 WAV

本章代码:https://gitee.com/szluyu99/audio-video-dev/tree/master/12_pcm_to_wav

命令行将 PCM 转 WAV:

ffmpeg -ar 44100 -ac 2 -f s16le -i out.pcm out.wav

加上一个输出文件参数 -bitexact 可以去掉 LIST Chunk:

ffmpeg -ar 44100 -ac 2 -f s16le -i out.pcm -bitexact out2.wav

WAV 文件格式:

根据上图写出的 WAV 头结构体:

LSB \ MSB:

  • LSB(Least Significant Bit / Byte,最低有效位 / 字节),小端
  • MSB(Most Significant Bit / Byte,最高有效位 / 字节),大端

0x11223344,44 是最低有效字节,11 是最高有效字节
小端:0x44 0x33 0x22 0x11(最低有效字节在前)
大端:0x11 0x22 0x33 0x44(最高有效字节在前)

11_音频重采样 (Audio Resample)

MJ 老师的博客:https://www.cnblogs.com/mjios/p/14595083.html

本章代码:https://gitee.com/szluyu99/audio-video-dev/tree/master/13_audio_resample

音频重采样:将音频 A 转换成音频 B,并且音频 A、B 的参数(采样率、采样格式、声道数)并不完全相同。

命令行中,将 44100_s16le_2 转换成 48000_f32le_1

ffmpeg -ar 44100 -ac 2 -f s16le -i 44100_s16le_2.pcm -ar 48000 -ac 1 -f f32le 48000_f32le_1.pcm

音频重采样:

  1. 创建重采样上下文
  2. 初始化重采样上下文
  3. 创建输入缓冲区
  4. 创建输出缓冲区
  5. 读取文件数据,重采样
  6. 释放资源

指针知识拓展:

由图可见,实际上有4块堆空间,实际上要释放4次,所以释放代码如下:

《音频、图像及视频技术》学习笔记相关推荐

  1. 第二行代码学习笔记——第六章:数据储存全方案——详解持久化技术

    本章要点 任何一个应用程序,总是不停的和数据打交道. 瞬时数据:指储存在内存当中,有可能因为程序关闭或其他原因导致内存被回收而丢失的数据. 数据持久化技术,为了解决关键性数据的丢失. 6.1 持久化技 ...

  2. 第一行代码学习笔记第二章——探究活动

    知识点目录 2.1 活动是什么 2.2 活动的基本用法 2.2.1 手动创建活动 2.2.2 创建和加载布局 2.2.3 在AndroidManifest文件中注册 2.2.4 在活动中使用Toast ...

  3. 第一行代码学习笔记第八章——运用手机多媒体

    知识点目录 8.1 将程序运行到手机上 8.2 使用通知 * 8.2.1 通知的基本使用 * 8.2.2 通知的进阶技巧 * 8.2.3 通知的高级功能 8.3 调用摄像头和相册 * 8.3.1 调用 ...

  4. 第一行代码学习笔记第六章——详解持久化技术

    知识点目录 6.1 持久化技术简介 6.2 文件存储 * 6.2.1 将数据存储到文件中 * 6.2.2 从文件中读取数据 6.3 SharedPreferences存储 * 6.3.1 将数据存储到 ...

  5. 第一行代码学习笔记第三章——UI开发的点点滴滴

    知识点目录 3.1 如何编写程序界面 3.2 常用控件的使用方法 * 3.2.1 TextView * 3.2.2 Button * 3.2.3 EditText * 3.2.4 ImageView ...

  6. 第一行代码学习笔记第十章——探究服务

    知识点目录 10.1 服务是什么 10.2 Android多线程编程 * 10.2.1 线程的基本用法 * 10.2.2 在子线程中更新UI * 10.2.3 解析异步消息处理机制 * 10.2.4 ...

  7. 第一行代码学习笔记第七章——探究内容提供器

    知识点目录 7.1 内容提供器简介 7.2 运行权限 * 7.2.1 Android权限机制详解 * 7.2.2 在程序运行时申请权限 7.3 访问其他程序中的数据 * 7.3.1 ContentRe ...

  8. 第一行代码学习笔记第五章——详解广播机制

    知识点目录 5.1 广播机制 5.2 接收系统广播 * 5.2.1 动态注册监听网络变化 * 5.2.2 静态注册实现开机广播 5.3 发送自定义广播 * 5.3.1 发送标准广播 * 5.3.2 发 ...

  9. 第一行代码学习笔记第九章——使用网络技术

    知识点目录 9.1 WebView的用法 9.2 使用HTTP协议访问网络 * 9.2.1 使用HttpURLConnection * 9.2.2 使用OkHttp 9.3 解析XML格式数据 * 9 ...

  10. 安卓教程----第一行代码学习笔记

    安卓概述 系统架构 Linux内核层,还包括各种底层驱动,如相机驱动.电源驱动等 系统运行库层,包含一些c/c++的库,如浏览器内核webkit.SQLlite.3D绘图openGL.用于java运行 ...

最新文章

  1. Allegro16.6软件布局设计技巧:模块复用
  2. 第一届WebRTCon在上海举行
  3. 方维O2O系统 后台业务员功能开发
  4. 前端面试系列-JS 异步编程
  5. EPSON 任务同步 改写
  6. 华为手机怎么设置应用不全屏显示_手机投屏智能电视画面比例不合适怎么办?...
  7. 如何批量下载《大数据分析实用技术案例》的学习视频
  8. 阿里云STMP实现邮件发送
  9. 《自控力》读书笔记及实践
  10. 5G核心网技术基础自学系列 | 与EPC互通
  11. python实现模拟身份验证服务器综合系统设计
  12. 用pycharm创建数据库sqlites3表格,但是打开并不显示
  13. 新版正方教务系统模拟登录登录密码RSA加密破解
  14. 用python实现词语接龙游戏
  15. python_获取两个数,打印中间值
  16. dwz 表单提交 html,dwz 文件上传表单提交 分析
  17. Gatling:HTTP Checks
  18. html菜鸟教程 动态天气,Blinker 天气时钟8266 12864LCD屏(针对新版库v0.3.4接口更新)...
  19. [转载]学习 codota的使用
  20. python代码实现切换中英文输入法

热门文章

  1. 计算机网络的分层结构、协议、服务和接口
  2. hexbin_Power BI Desktop中的Hexbin散点图
  3. javascript 事件冒泡和事件代理
  4. E 定向 牛客练习赛25
  5. Mac 显示sudo: pip: command not found
  6. CentOS6上安装Flash Player
  7. 自定义cell的左侧滑动
  8. WordPress添加评论回复的电子邮件警报通知
  9. 读大道至简第五章有感
  10. 开启Windows文件共享必须开启的两个服务