在网络上,同时传输音频和视频并且在不同的通道传输,就涉及到了唇音同步(Lip-sync)的问题,比如SIP视频通话、视频会议等。
 最近在研究这个问题,对Lip-sync有所了解。介绍一种通用易懂的架构。如下:

1.发送端的动作
    音频帧和视频帧都打上时间戳(以同样的时间基(timebase),比如系统运行的时间)

2.接收端的动作
   1)媒体内同步
      创建音频和视频的jitter 缓冲区,来处理延迟抖动、丢包、乱序导致的播放不流畅问题。
   2)媒体间同步
      以音频为主流,视频为从流。
      音频播放之前,缓冲一定数量的音频帧。 定时从音频缓冲区中取得一个音频帧进行播放,
      并记录下时间戳Ta。然后从视频缓冲区中取得一个视频帧,其时间戳Tv与Ta进行对比,来决定
      是立即显示、丢弃还是稍后显示。

以上就是简单的唇音同步的方案,仅在接收端进行改善,但是音频和视频不同步,

有很多原因:采集不同步、编码不同步、网络打包不同步、网络传输不同步、 网络解包不同步,解码不同步。

故,实现唇音同步,不仅可以在接收端进行改善,同时也可以在发送端做改善的处理,在此不做描述。

实现 Lip-sync相关推荐

  1. A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 翻译

    你所需要的语音对口型专家,自然场景下的进行语音对口型的生成 图1: 我们的新型Wav2Lip模型在动态的.无约束的人脸对话视频中产生了明显更准确的唇部同步.定量指标表明,我们生成的视频中的唇部同步几乎 ...

  2. 论文阅读:A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

    文章目录 词汇 论文解读 方法解释 对于预训练的口型鉴别器: 对于生成器: 匹配问题 改进面部质量 训练细节 总结 词汇 rigorous /'rɪɡərəs/ 严格的:缜密的 benchmark 一 ...

  3. 【MM2020】【lip generation】A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

    注:拉到最后有视频版哦~ 论文地址:https://bhaasha.iiit.ac.in/lipsync 这次给大家讲一篇做 lip generation 的文章,发表在 MM 的 2020 上 效果 ...

  4. 论文阅读:Out of time: automated lip sync in the wild

    文章目录 单词 概述 架构 损失函数 训练 确定唇形同步错误 单词 threshold /'θrɛʃhold/ 门槛 annotation /ˌæno'teʃən/ n. 注解,注释 genuine ...

  5. 阅读笔记——A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

    概述 文章提出 Wav2Lip,基于音频合成对应唇形视频.文章提出实际视频中的不同姿态.尺度.光照的变化,而生成的视频也需要无缝融合到目标视频中.而一些模型可以在静态图像上表现比较好,但是在视频上的效 ...

  6. Wav2Lip模型------《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》论文解读及代码解析

    ABSTRACT: 在这篇文档中,我们将研究任意人物的人脸视频与目标音频的口型匹配问题.当前领域能做到对特定训练过的人物进行精准的口型匹配,但在其他未训练的人物上效果不好.我们找到了导致这种问题的主要 ...

  7. 论文阅读:Synthesizing Obama: Learning Lip Sync from Audio

    文章目录 音频到landmarks 面部纹理合成 候选帧选择 加权中位数纹理的合成 牙齿proxy (Teeth Proxy) 音频到视频部分出现的术语: stock video footage:th ...

  8. 【论文阅读】Out of time: automated lip sync in the wild

    文章链接 代码 参考 关键词 音画同步.CNN.SyncNet 前言 在视频播放中,常常出现音画不同步的现象,它们的时差通常在 -125ms~45ms 之间. 解决该问题通常有以下几种思路: 传统方式 ...

  9. CVPR 2021 | 任何人都能“不讲武德”,姿态可控的语音驱动说话人脸

    作者丨Johann Zhou@知乎 来源丨https://zhuanlan.zhihu.com/p/367525241 编辑丨极市平台 [导读]本文介绍了一篇由香港中文大学MMLab,商汤科技和南洋理 ...

  10. AAAI 2019 Oral | 让TA说你想听的—基于音/视频特征解离的讲述者人脸生成

    你是否希望照片上的偶像.男神女神,甚至动画人物对着你说出你想听的那句话?又或是希望伪造明星说他们没说过话的视频? 作者丨Lovely Zeng 学校丨CUHK 研究方向丨Detection 香港中文大 ...

最新文章

  1. 7-1 查找书籍(20 分)(程序设计天梯赛模拟练习题)
  2. eclipse工程设置项目jre
  3. ASP.NET MVC涉及到的5个同步与异步,你是否傻傻分不清楚?[下篇]
  4. python中在同一个位置输出数据
  5. JavaScript语言基础(二)
  6. python库skimage 绘制直方图;绘制累计直方图;实现直方图匹配(histogram matching)
  7. 我查这么多数据,会不会把数据库内存打爆?
  8. 改动Oracle GoldenGate(ogg)各个进程的读检查点和写检查点
  9. 关于计算机音乐编创的论文,有关浅谈少儿舞蹈音乐的编创论文
  10. HTML 代码混淆与压缩
  11. 抓紧收藏,9大短视频自媒体工具,帮你快速月入过万,不真人出镜
  12. 我们该如何运营Facebook账号呢?
  13. 蚂蚁金服副总裁在剑桥、牛津大学说了三个词,差点掀起“中国热”
  14. 常用的URL Scheme
  15. 斐讯n1 f大固件62+o 添加亚信ax88179千兆网卡lan wan互换
  16. Keil 提示error C231: ‘INT0‘: redefinition的原因及其解决方法
  17. Linux文本编辑器-vim
  18. python 物理公式计算_计算重力/跳跃
  19. C语言字符串(C语言八)
  20. 2018 与 我的技术之路

热门文章

  1. 服务器容量规划文档,服务器容量规划文档
  2. PS笔记:冷调人物调色
  3. es同义词插件 热更新(dynamic-synonym插件)
  4. 分享三种高效的方法,快速将一个PDF文件分割成两个!
  5. 菜鸟教程 python_开始Python的新手教程
  6. 等额本息 vs 等额本金
  7. IBM云计算平台汽车碰撞测试构建方案
  8. 登录页面的密码的显示与隐藏
  9. 虚拟内存以及进程的虚拟内存分布(第六章)
  10. python求最值_python怎么求一个函数的最值?