实现 Lip-sync
在网络上,同时传输音频和视频并且在不同的通道传输,就涉及到了唇音同步(Lip-sync)的问题,比如SIP视频通话、视频会议等。
最近在研究这个问题,对Lip-sync有所了解。介绍一种通用易懂的架构。如下:
1.发送端的动作
音频帧和视频帧都打上时间戳(以同样的时间基(timebase),比如系统运行的时间)
2.接收端的动作
1)媒体内同步
创建音频和视频的jitter 缓冲区,来处理延迟抖动、丢包、乱序导致的播放不流畅问题。
2)媒体间同步
以音频为主流,视频为从流。
音频播放之前,缓冲一定数量的音频帧。 定时从音频缓冲区中取得一个音频帧进行播放,
并记录下时间戳Ta。然后从视频缓冲区中取得一个视频帧,其时间戳Tv与Ta进行对比,来决定
是立即显示、丢弃还是稍后显示。
以上就是简单的唇音同步的方案,仅在接收端进行改善,但是音频和视频不同步,
有很多原因:采集不同步、编码不同步、网络打包不同步、网络传输不同步、 网络解包不同步,解码不同步。
故,实现唇音同步,不仅可以在接收端进行改善,同时也可以在发送端做改善的处理,在此不做描述。
实现 Lip-sync相关推荐
- A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 翻译
你所需要的语音对口型专家,自然场景下的进行语音对口型的生成 图1: 我们的新型Wav2Lip模型在动态的.无约束的人脸对话视频中产生了明显更准确的唇部同步.定量指标表明,我们生成的视频中的唇部同步几乎 ...
- 论文阅读:A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
文章目录 词汇 论文解读 方法解释 对于预训练的口型鉴别器: 对于生成器: 匹配问题 改进面部质量 训练细节 总结 词汇 rigorous /'rɪɡərəs/ 严格的:缜密的 benchmark 一 ...
- 【MM2020】【lip generation】A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
注:拉到最后有视频版哦~ 论文地址:https://bhaasha.iiit.ac.in/lipsync 这次给大家讲一篇做 lip generation 的文章,发表在 MM 的 2020 上 效果 ...
- 论文阅读:Out of time: automated lip sync in the wild
文章目录 单词 概述 架构 损失函数 训练 确定唇形同步错误 单词 threshold /'θrɛʃhold/ 门槛 annotation /ˌæno'teʃən/ n. 注解,注释 genuine ...
- 阅读笔记——A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
概述 文章提出 Wav2Lip,基于音频合成对应唇形视频.文章提出实际视频中的不同姿态.尺度.光照的变化,而生成的视频也需要无缝融合到目标视频中.而一些模型可以在静态图像上表现比较好,但是在视频上的效 ...
- Wav2Lip模型------《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》论文解读及代码解析
ABSTRACT: 在这篇文档中,我们将研究任意人物的人脸视频与目标音频的口型匹配问题.当前领域能做到对特定训练过的人物进行精准的口型匹配,但在其他未训练的人物上效果不好.我们找到了导致这种问题的主要 ...
- 论文阅读:Synthesizing Obama: Learning Lip Sync from Audio
文章目录 音频到landmarks 面部纹理合成 候选帧选择 加权中位数纹理的合成 牙齿proxy (Teeth Proxy) 音频到视频部分出现的术语: stock video footage:th ...
- 【论文阅读】Out of time: automated lip sync in the wild
文章链接 代码 参考 关键词 音画同步.CNN.SyncNet 前言 在视频播放中,常常出现音画不同步的现象,它们的时差通常在 -125ms~45ms 之间. 解决该问题通常有以下几种思路: 传统方式 ...
- CVPR 2021 | 任何人都能“不讲武德”,姿态可控的语音驱动说话人脸
作者丨Johann Zhou@知乎 来源丨https://zhuanlan.zhihu.com/p/367525241 编辑丨极市平台 [导读]本文介绍了一篇由香港中文大学MMLab,商汤科技和南洋理 ...
- AAAI 2019 Oral | 让TA说你想听的—基于音/视频特征解离的讲述者人脸生成
你是否希望照片上的偶像.男神女神,甚至动画人物对着你说出你想听的那句话?又或是希望伪造明星说他们没说过话的视频? 作者丨Lovely Zeng 学校丨CUHK 研究方向丨Detection 香港中文大 ...
最新文章
- 7-1 查找书籍(20 分)(程序设计天梯赛模拟练习题)
- eclipse工程设置项目jre
- ASP.NET MVC涉及到的5个同步与异步,你是否傻傻分不清楚?[下篇]
- python中在同一个位置输出数据
- JavaScript语言基础(二)
- python库skimage 绘制直方图;绘制累计直方图;实现直方图匹配(histogram matching)
- 我查这么多数据,会不会把数据库内存打爆?
- 改动Oracle GoldenGate(ogg)各个进程的读检查点和写检查点
- 关于计算机音乐编创的论文,有关浅谈少儿舞蹈音乐的编创论文
- HTML 代码混淆与压缩
- 抓紧收藏,9大短视频自媒体工具,帮你快速月入过万,不真人出镜
- 我们该如何运营Facebook账号呢?
- 蚂蚁金服副总裁在剑桥、牛津大学说了三个词,差点掀起“中国热”
- 常用的URL Scheme
- 斐讯n1 f大固件62+o 添加亚信ax88179千兆网卡lan wan互换
- Keil 提示error C231: ‘INT0‘: redefinition的原因及其解决方法
- Linux文本编辑器-vim
- python 物理公式计算_计算重力/跳跃
- C语言字符串(C语言八)
- 2018 与 我的技术之路