实现 Lip-sync

在网络上，同时传输音频和视频并且在不同的通道传输，就涉及到了唇音同步(Lip-sync)的问题，比如SIP视频通话、视频会议等。
最近在研究这个问题，对Lip-sync有所了解。介绍一种通用易懂的架构。如下：

1.发送端的动作
音频帧和视频帧都打上时间戳(以同样的时间基(timebase)，比如系统运行的时间)

2.接收端的动作
1)媒体内同步
创建音频和视频的jitter 缓冲区，来处理延迟抖动、丢包、乱序导致的播放不流畅问题。
2)媒体间同步
以音频为主流，视频为从流。
音频播放之前，缓冲一定数量的音频帧。定时从音频缓冲区中取得一个音频帧进行播放，
并记录下时间戳Ta。然后从视频缓冲区中取得一个视频帧，其时间戳Tv与Ta进行对比，来决定
是立即显示、丢弃还是稍后显示。

以上就是简单的唇音同步的方案，仅在接收端进行改善，但是音频和视频不同步，

有很多原因：采集不同步、编码不同步、网络打包不同步、网络传输不同步、网络解包不同步，解码不同步。

故，实现唇音同步，不仅可以在接收端进行改善，同时也可以在发送端做改善的处理，在此不做描述。

实现 Lip-sync相关推荐

A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 翻译
你所需要的语音对口型专家,自然场景下的进行语音对口型的生成图1: 我们的新型Wav2Lip模型在动态的.无约束的人脸对话视频中产生了明显更准确的唇部同步.定量指标表明,我们生成的视频中的唇部同步几乎 ...
论文阅读：A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
文章目录词汇论文解读方法解释对于预训练的口型鉴别器: 对于生成器: 匹配问题改进面部质量训练细节总结词汇 rigorous /'rɪɡərəs/ 严格的:缜密的 benchmark 一 ...
【MM2020】【lip generation】A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
注:拉到最后有视频版哦~ 论文地址:https://bhaasha.iiit.ac.in/lipsync 这次给大家讲一篇做 lip generation 的文章,发表在 MM 的 2020 上效果 ...
论文阅读：Out of time: automated lip sync in the wild
文章目录单词概述架构损失函数训练确定唇形同步错误单词 threshold /'θrɛʃhold/ 门槛 annotation /ˌæno'teʃən/ n. 注解,注释 genuine ...
阅读笔记——A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
概述文章提出 Wav2Lip,基于音频合成对应唇形视频.文章提出实际视频中的不同姿态.尺度.光照的变化,而生成的视频也需要无缝融合到目标视频中.而一些模型可以在静态图像上表现比较好,但是在视频上的效 ...
Wav2Lip模型------《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》论文解读及代码解析
ABSTRACT: 在这篇文档中,我们将研究任意人物的人脸视频与目标音频的口型匹配问题.当前领域能做到对特定训练过的人物进行精准的口型匹配,但在其他未训练的人物上效果不好.我们找到了导致这种问题的主要 ...
论文阅读：Synthesizing Obama: Learning Lip Sync from Audio
文章目录音频到landmarks 面部纹理合成候选帧选择加权中位数纹理的合成牙齿proxy (Teeth Proxy) 音频到视频部分出现的术语: stock video footage:th ...
【论文阅读】Out of time: automated lip sync in the wild
文章链接代码参考关键词音画同步.CNN.SyncNet 前言在视频播放中,常常出现音画不同步的现象,它们的时差通常在 -125ms~45ms 之间. 解决该问题通常有以下几种思路: 传统方式 ...
CVPR 2021 | 任何人都能“不讲武德”，姿态可控的语音驱动说话人脸
作者丨Johann Zhou@知乎来源丨https://zhuanlan.zhihu.com/p/367525241 编辑丨极市平台 [导读]本文介绍了一篇由香港中文大学MMLab,商汤科技和南洋理 ...
AAAI 2019 Oral | 让TA说你想听的—基于音/视频特征解离的讲述者人脸生成
你是否希望照片上的偶像.男神女神,甚至动画人物对着你说出你想听的那句话?又或是希望伪造明星说他们没说过话的视频? 作者丨Lovely Zeng 学校丨CUHK 研究方向丨Detection 香港中文大 ...

实现 Lip-sync

实现 Lip-sync相关推荐

最新文章

热门文章