《音频、图像及视频技术》学习笔记
秒懂音视频开发学习笔记
- 01_移动通信技术的发展
- 02_重识图片
- 03_Windows开发环境搭建
- 04_Qt开发基础
- 05_重识声音
- 06_重识音频
- 07_音频录制01_命令行
- 08_音频录制02_编程
- Qt 中的几种输出方式
- 09_播放PCM
- 10_PCM 转 WAV
- 11_音频重采样 (Audio Resample)
学习视频源于小码哥的:音频、图像及视频技术课程
MJ老师的文章内容很详细,我就不自己整理了,具体内容可以参考MJ的博客,每一个标题下都有
我会理一份大纲出来,同时记录一些MJ文章里没有写的内容
我的音视频开发代码: https://gitee.com/szluyu99/audio-video-dev
01_移动通信技术的发展
MJ老师的博客:【秒懂音视频开发】01_移动通信技术的发展
- 1G:语音时代
- 2G:文字时代
- 3G:图片时代
- 4G:视频时代
- 5G:新的时代
02_重识图片
MJ老师的博客:【秒懂音视频开发】17_重识图片
- 像素
- RGB颜色模型
- 位深度
LCD屏 原理:
LCD屏 和 OLED屏 对比:
bmp文件格式:
- 前54个字节: 文件头
- 54个字节以后:以 B、G、R 的顺序显示每一个像素的颜色
- 字节显示顺序对应图像是从左下角开始,依次往上
03_Windows开发环境搭建
MJ老师的博客:【秒懂音视频开发】04_Windows开发环境搭建
- 跨平台的音视频开发库:FFmpeg
- GUI库:Qt,开发工具:QtCreator
- Qt 集成 FFmpeg
MC老师的博客:【秒懂音视频开发】05_Mac开发环境搭建
04_Qt开发基础
MJ老师的博客:【秒懂音视频开发】06_Qt开发基础
- 控件的基本使用
- 信号与槽:
- 基本使用:
connect(信号的发送者, 信号, 信号的接收者, 槽);
- 自定义信号:
信号的发送者
信号的接收者
连接
参数和返回值:信号的参数个数必须 >= 槽的参数个数 - 连接两个信号,注意传递关系
- Lambda处理点击事件:
connect(btn, &QPushButton::clicked,[](int a) { qDebug() << "点击了按钮"; });
- 自定义槽函数
在mainWindow.h
下自定义槽函数的声明,在mainWindow.cpp
下实现自定义槽函数;
连接:connect(btn, &QPushButton::clicked, this, &MainWindow::handleExit);
- 使用
.ui
文件进行信号与槽的连接
命名:on_控件对象名_槽函数名
,例如on_loginButton_clicked()
- 基本使用:
05_重识声音
MJ老师的博客:【秒懂音视频开发】02_重识声音
- 声波:空气的振动带来了动能,能量传入了耳朵中,最后就听到了声音
- 振幅:从平衡位置到最大位移位置之间的距离
- 周期:空气分子完全来回振动一次所花费的时间,单位:秒(s)
- 频率:物体每秒来回振动的次数,单位:赫兹(Hz)
频率 = 1 / 周期
- 音调:频率越高,音调越高
- 响度:当提高声音的响度(音量,大小)时,振动的幅度会变大
常用 dB(分贝)来描述声音的响度 - 音色:是指声音的特色
- 噪音
06_重识音频
MJ老师的博客:【秒懂音视频开发】03_重识音频
PCM(Pulse Code Modulation) - 脉冲编码调制
- 采样:每隔一段时间采集一次模拟信号的样本,在时间上将模拟信号离散化(把连续信号转换成离散信号)的过程
- 采样率:每秒采集的样本数量
- 采样定理:只有当采样率高于声音信号最高频率的2倍时,才能把采集的声音信号唯一地还原成原来的声音
- 量化:将每一个采样点的样本值数字化
- 位深度:使用多少个二进制位来存储一个采样点的样本值
- 编码:将采样和量化后的数字数据转成二进制码流
- 其他概念
- 声道
- 比特率
- 信噪比
音频的编码与解码:
编码:将未经压缩的原始音频数据PCM,使用某种音频编码压缩,再存成某种音频文件格式
压缩可分为:有损压缩、无损压缩
解码:
常见的音频编码和文件格式
- 无损编码:Monkey’s Audio、FLAC、ALAC
- 有损编码:MP3、WMA、AAC、Vorbis、Speex、Opus
- 文件格式:Ogg、WAV、AIFF
就算是 PCM数据,也只是相对无损,任何音频编码其实都是有损的
07_音频录制01_命令行
MJ老师的博客:【秒懂音视频开发】07_音频录制01_命令行
FFmpeg相关命令:
ffmpeg
:对音视频进行编解码ffprobe
:查看音视频的参数信息ffplay
:播放音视频- 参数
-hide_bannder
:隐藏一些冗余的描述信息
通过命令行录音:
- 查看可用设备:
ffmpeg -devices
- 查看dshow支持的设备:
ffmpeg -f dshow -list_devices true -i dummy
- 指定设备进行录音:
ffmpeg -f dshow -i audio="麦克风阵列 (Realtek(R) Audio)" out.wav
- 设置dshow的参数:
ffmpeg -f dshow -sample_rate 15000 -sample_size 16 -channels 1 -i audio="麦克风阵列 (Realtek(R) Audio)" out.wav
08_音频录制02_编程
MJ老师的博客:https://www.cnblogs.com/mjios/p/14540642.html
本章代码:https://gitee.com/szluyu99/audio-video-dev/tree/master/09_record_audio_sub_thread
查看 PCM 的格式:
ffmpeg -formats | findstr PCM
DE alaw PCM A-law
DE f32be PCM 32-bit floating-point big-endian
DE f32le PCM 32-bit floating-point little-endian
DE f64be PCM 64-bit floating-point big-endian
DE f64le PCM 64-bit floating-point little-endian
DE mulaw PCM mu-law
DE s16be PCM signed 16-bit big-endian
DE s16le PCM signed 16-bit little-endian
....
由 dshow 采集的数据默认是 DE s16be PCM signed 16-bit big-endian
格式的
因此通过 ffmpeg 播放采集到的 out.pcm 指令如下:
ffplay -ar 44100 -ac 2 -f s16le out.pcm
通过 ffprobe 查看采集到的 out.pcm 数据:
ffprobe -ar 44100 -ac 2 -f s16le out.pcm
Input #0, s16le, from 'out.pcm':Duration: 00:00:25.00, bitrate: 1411 kb/sStream #0:0: Audio: pcm_s16le, 44100 Hz, 2 channels, s16, 1411 kb/s
Qt 中的几种输出方式
如果采用 C语言、C++、FFmpeg 的输出方式都需要刷新输出流(缓冲区),因此在 Qt 项目中建议使用 qDebug()
的输出方式。
// C语言
printf("printf----");// C++
std::cout << "std::cout----";// FFmpeg
av_log_set_level(AV_LOG_INFO);
av_log(nullptr, AV_LOG_ERROR, "av_log1----");
av_log(nullptr, AV_LOG_INFO, "av_log2----");
av_log(nullptr, AV_LOG_WARNING, "av_log3----");
// 日志级别:用于过滤日志输出
// TRACE < DEBUG < INFO < WARNING < ERROR < FATAL < QUIET// 刷新标准输出流
fflush(stdout);
fflush(stderr);// Qt
qDebug() << "qDebug()----";
09_播放PCM
MJ老师的博客:【秒懂音视频开发】09_播放PCM
本章代码:https://gitee.com/szluyu99/audio-video-dev/tree/master/11_sdl_play_pcm
这期的代码很有搞头,要好好消化一下。
播放 PCM:
- 初始化子系统
- 打开音频设备
- 打开文件
- 开始播放
- 回调函数
- 释放资源
10_PCM 转 WAV
MJ老师的博客:【秒懂音视频开发】10_PCM 转 WAV
本章代码:https://gitee.com/szluyu99/audio-video-dev/tree/master/12_pcm_to_wav
命令行将 PCM 转 WAV:
ffmpeg -ar 44100 -ac 2 -f s16le -i out.pcm out.wav
加上一个输出文件参数 -bitexact
可以去掉 LIST Chunk:
ffmpeg -ar 44100 -ac 2 -f s16le -i out.pcm -bitexact out2.wav
WAV 文件格式:
根据上图写出的 WAV 头结构体:
LSB \ MSB:
- LSB(Least Significant Bit / Byte,最低有效位 / 字节),小端
- MSB(Most Significant Bit / Byte,最高有效位 / 字节),大端
0x11223344
,44 是最低有效字节,11 是最高有效字节
小端:0x44 0x33 0x22 0x11(最低有效字节在前)
大端:0x11 0x22 0x33 0x44(最高有效字节在前)
11_音频重采样 (Audio Resample)
MJ 老师的博客:https://www.cnblogs.com/mjios/p/14595083.html
本章代码:https://gitee.com/szluyu99/audio-video-dev/tree/master/13_audio_resample
音频重采样:将音频 A 转换成音频 B,并且音频 A、B 的参数(采样率、采样格式、声道数)并不完全相同。
命令行中,将 44100_s16le_2
转换成 48000_f32le_1
:
ffmpeg -ar 44100 -ac 2 -f s16le -i 44100_s16le_2.pcm -ar 48000 -ac 1 -f f32le 48000_f32le_1.pcm
音频重采样:
- 创建重采样上下文
- 初始化重采样上下文
- 创建输入缓冲区
- 创建输出缓冲区
- 读取文件数据,重采样
- 释放资源
指针知识拓展:
由图可见,实际上有4块堆空间,实际上要释放4次,所以释放代码如下:
《音频、图像及视频技术》学习笔记相关推荐
- 第二行代码学习笔记——第六章:数据储存全方案——详解持久化技术
本章要点 任何一个应用程序,总是不停的和数据打交道. 瞬时数据:指储存在内存当中,有可能因为程序关闭或其他原因导致内存被回收而丢失的数据. 数据持久化技术,为了解决关键性数据的丢失. 6.1 持久化技 ...
- 第一行代码学习笔记第二章——探究活动
知识点目录 2.1 活动是什么 2.2 活动的基本用法 2.2.1 手动创建活动 2.2.2 创建和加载布局 2.2.3 在AndroidManifest文件中注册 2.2.4 在活动中使用Toast ...
- 第一行代码学习笔记第八章——运用手机多媒体
知识点目录 8.1 将程序运行到手机上 8.2 使用通知 * 8.2.1 通知的基本使用 * 8.2.2 通知的进阶技巧 * 8.2.3 通知的高级功能 8.3 调用摄像头和相册 * 8.3.1 调用 ...
- 第一行代码学习笔记第六章——详解持久化技术
知识点目录 6.1 持久化技术简介 6.2 文件存储 * 6.2.1 将数据存储到文件中 * 6.2.2 从文件中读取数据 6.3 SharedPreferences存储 * 6.3.1 将数据存储到 ...
- 第一行代码学习笔记第三章——UI开发的点点滴滴
知识点目录 3.1 如何编写程序界面 3.2 常用控件的使用方法 * 3.2.1 TextView * 3.2.2 Button * 3.2.3 EditText * 3.2.4 ImageView ...
- 第一行代码学习笔记第十章——探究服务
知识点目录 10.1 服务是什么 10.2 Android多线程编程 * 10.2.1 线程的基本用法 * 10.2.2 在子线程中更新UI * 10.2.3 解析异步消息处理机制 * 10.2.4 ...
- 第一行代码学习笔记第七章——探究内容提供器
知识点目录 7.1 内容提供器简介 7.2 运行权限 * 7.2.1 Android权限机制详解 * 7.2.2 在程序运行时申请权限 7.3 访问其他程序中的数据 * 7.3.1 ContentRe ...
- 第一行代码学习笔记第五章——详解广播机制
知识点目录 5.1 广播机制 5.2 接收系统广播 * 5.2.1 动态注册监听网络变化 * 5.2.2 静态注册实现开机广播 5.3 发送自定义广播 * 5.3.1 发送标准广播 * 5.3.2 发 ...
- 第一行代码学习笔记第九章——使用网络技术
知识点目录 9.1 WebView的用法 9.2 使用HTTP协议访问网络 * 9.2.1 使用HttpURLConnection * 9.2.2 使用OkHttp 9.3 解析XML格式数据 * 9 ...
- 安卓教程----第一行代码学习笔记
安卓概述 系统架构 Linux内核层,还包括各种底层驱动,如相机驱动.电源驱动等 系统运行库层,包含一些c/c++的库,如浏览器内核webkit.SQLlite.3D绘图openGL.用于java运行 ...
最新文章
- Allegro16.6软件布局设计技巧:模块复用
- 第一届WebRTCon在上海举行
- 方维O2O系统 后台业务员功能开发
- 前端面试系列-JS 异步编程
- EPSON 任务同步 改写
- 华为手机怎么设置应用不全屏显示_手机投屏智能电视画面比例不合适怎么办?...
- 如何批量下载《大数据分析实用技术案例》的学习视频
- 阿里云STMP实现邮件发送
- 《自控力》读书笔记及实践
- 5G核心网技术基础自学系列 | 与EPC互通
- python实现模拟身份验证服务器综合系统设计
- 用pycharm创建数据库sqlites3表格,但是打开并不显示
- 新版正方教务系统模拟登录登录密码RSA加密破解
- 用python实现词语接龙游戏
- python_获取两个数,打印中间值
- dwz 表单提交 html,dwz 文件上传表单提交 分析
- Gatling:HTTP Checks
- html菜鸟教程 动态天气,Blinker 天气时钟8266 12864LCD屏(针对新版库v0.3.4接口更新)...
- [转载]学习 codota的使用
- python代码实现切换中英文输入法