数字视音频处理知识点小结
视频结构化与非线性编辑部分
镜头检测
镜头是视频流数据的最小物理数据单元,所谓镜头检测就是给定有n个镜头的视频V,找到每个镜头的开始和结尾部分。也被称作边界检测(boundary detection)或转换检测(transition detection)。
镜头边缘检测算法的实质及核心问题
实质:找到一种或几种良好的视频图像特征,通过判断相邻图像帧之间的特征是否发生剧烈变化,来完成视频镜头边缘检测任务。
核心问题:如何选择特征,如何定义相似度函数
//或者是关键问题:(1) 自适应阈值 (2)渐变镜头数学模型
镜头、关键帧、场景、组
镜头(Shot):摄像机拍下的不间断帧序列,是视频数据流进一步结构化的基础结构层。
关键帧(Key Frame):可以用来代表镜头内容的图像。
场景(Scene):语义上相关和时间上相邻的若干组镜头组成了一个场景。场景是视频所蕴含的高层抽象概念和语义的表达。
组(Group):介于物理镜头和语义场景之间的结构。
视频结构化分析包含哪些基本步骤、内容(又:视频目录生成构造的主要步骤)
镜头边缘检测
关键帧提取
时空特征提取
时间可适性成组
场景结构构造
镜头空间特征和时间特征的区别
镜头时间特征:包含运动信息,即镜头中前后两帧的差异累积
镜头空间特征:
如何匹配视频镜头之间的相似度
视觉相似性(颜色直方图等空间特征)
时间局部性(如运动相似度)
镜头可用关键帧代表,也用聚类质心。
视频时序结构图构造的主要步骤
视频解码
视频切分
关键帧提取
视频聚类分析
构造时序图
按照时序图浏览
镜头边缘检测算法
绝对帧间差法
相邻图像所有像素和的差,大于某一阈值,发生较大变化。
图像像素差法
先统计图像对应像素变化超过阈值像素点个数,再统计这个个数是否超过某一特定阈值,如果是,那么发生较大变化。
图像数值差法
将图像分成若干个子块区域,在这些区域中比较对应像素数值的差别。
颜色直方图法
直方图差;带权重的直方图差;直方图的交(两者取小的)
双阈值法
高阈值检测突变镜头,低阈值确定渐变镜头起始。
关键帧提取算法
镜头边界法
镜头中第一帧和最后一帧作为关键帧
颜色特征法
较多颜色特征(直方图)转变,作为关键帧。
运动分析法
相机焦距变化:选择首尾两帧作为关键帧; 相机角度变化:与上一帧重叠小于30%,作为关键帧
聚类的关键帧提取
常用K-means。求帧与质心距离,距离大形成新的聚类,否则加入原有聚类;每次计算后都更新质心;非监督过程。
渐变镜头的数学模型
Dissolve的数学模型:
(f(x,y)场景A g(x,y) 场景B L1:场景A持续时间,L2:场景B持续时间,F:场景A,B Dissolve持续时间)
均值:
()
()
()
方差:
()
()
()
视频数据压缩部分
差分编码
运动补偿(基本思想与具体步骤)
压缩视频中I、B、P帧的定义,区别,特点
如何利用YUV色彩模型压缩视频数据
Y:亮度
U和V:红色蓝色色差值
Y选取选取,而UV个点采集,因为人眼对色差分辨率不高。
YUV:4:4:4 每个Y对应1个UV
YUV: 4:2:2 每2个Y对应1个UV
YUV:4:2:0 每4个Y对应1个UV
静态图像压缩(JPEG)方法的基本流程
转换到YUV颜色空间
采样(4:1:1)
分块(8X8)
离散余弦变换
zigzag扫描排序
量化(浮点变整数)
DC系数进行差分脉冲调制编码
DC系数中间格式计算
AC系数行程长度编码
AC系数中间格式计算
熵编码
给出一种简单的视频压缩方案
视频数据空间压缩的方法(与JPEG相似)
运动补偿方法的步骤
计算运动向量
搜索匹配子块
计算视频帧之间的残差
对残差进行编码传输
其它
人对音量强弱的主观感受受哪些因素影响
频率音色
短时平稳假设
语音信号特性是随时间变化的,本质上是一个非平稳过程,但不同的语音是由人的口腔肌肉运动构成声道的某种形状而产生的响应,而这种肌肉晕哦东频率相对于语音频率来说是缓慢的,因而在一个短时间范围内,其特性基本保持不变,即相对稳定,可以视作一个准稳态过程。基于这样的考虑,对语音信号进行分段考虑,每一段称为一帧,一般假设为10-30ms。
语音信号处理方法
语音信号时域分析
预处理
短时加窗
能量
语音信号频域分析
语音识别
数字音乐
原文地址:https://blog.csdn.net/ZJU_fish1996/article/details/54124505
转载于:https://www.cnblogs.com/jpfss/p/11008556.html
数字视音频处理知识点小结相关推荐
- 关于人们感知与数字视音频编码的关系入门-视觉篇01.
众所周知,视音频的数字化是为惹方便人们更好地记录视听而被人们所折腾出来的一门技术.既然主要是为惹人们而服务的,在我们的探究过程中就水到渠成地首先偏向于贴合人们所设计惹.本文主要是从生理角度上浅谈一下人 ...
- 【数字视音频处理】复习笔记 (。・∀・)ノ゛
============ 语音部分 ============ · 语音技术引言 语音链: 发音-传递-感知 - 语音产生数字模型(公式要求理解) - 重要假设: 语音根据声带是否振动分为两类 · 语音 ...
- 视音频编解码技术及其实现 杭州海康威视数字技术有限公司 胡扬忠
一. 视音频编码国际标准化组织及其压缩标准介绍 国际上有两个负责视音频编码的标准化组织,一个是VCEG(Video code Expert Group),是国际电信联合会下的视频编码专家组,一 ...
- 最简单的视音频播放示例2:GDI播放YUV, RGB
===================================================== 最简单的视音频播放示例系列文章列表: 最简单的视音频播放示例1:总述 最简单的视音频播放示例 ...
- 视音频技术零基础学习方法
视音频技术零基础学习方法 (2014-06-16 23:59:24) 转载▼ 标签: it 一直想把视音频编解码技术做一个简单的总结,可是苦于时间不充裕,一直没能完成.今天有着很大的空闲,终于可以 ...
- python基础知识点小结(2021/2/9)
python基础知识点小结(2021/2/9)持续更新中~~ 入门小知识 cmd 在cmd上进行python,直接输入 python\quad pythonpython 退出cmd输入 exit()\ ...
- 视音频格式基础知识视频压缩
视音频格式基础知识&视频压缩 2018.7.10 一.视频基础知识 1.什么是视频:连续的图像变化每秒超过24帧(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面:看上去是 ...
- 最简单的视音频播放示例6:OpenGL播放YUV420P(通过Texture,使用Shader)
===================================================== 最简单的视音频播放示例系列文章列表: 最简单的视音频播放示例1:总述 最简单的视音频播放示例 ...
- 华栖云科技图形图像视音频算法岗面试经验
注:此经验写于工作半个月后,主要为想从事图形图像算法岗的应届毕业生提供一些面试经验参考. 面试公司:成都华栖云科技有限公司(chinamcloud) 面试岗位:图形图像视音频算法 面试时间:2018年 ...
最新文章
- matlab偏导符号怎么打,matlab 如何输入导数
- IE二级链接无法打开
- python中字符串的操作
- JavaScript事件使用指南
- 一道关于笔试的多线程题目
- ICCV2021 |上交、北理、百度联合研究视频缩放任务中的自条件概率学习
- android 库编译报错,Android Studio编译项目报错
- JAVA小项目实例源码—学习娱乐小助手
- 5G iPhone SE或将在明年一季度推出 明年有望生产3000万部
- 修改支付宝账号的授权方式
- h3c linux静态链路聚合,H3C静态链路聚合与典型配置.doc
- chrome样式不生效_Chrome开发者工具的11个使用技巧
- 报表软件FineReport如何连接SAP HANA
- 越狱开发笔记(三)——非越狱App砸壳
- 微云同步盘 linux,微云同步盘pc版下载
- 如何打开计算机用户账户控制面板,控制面板无法打开用户帐户
- Docker WordPress安装
- 让你快速掌握技巧,新手怎么做自媒体?分享6点干货知识
- Mathematica实例——利用Mathematica演示量子力学中的波包演化
- Linux常用命令——mv命令