无中生有!没有视觉信号的视觉语音增强
今天跟大家分享一篇非常有意思也很有用的文章,是WACV 2021的录用论文Visual Speech Enhancement Without A Real Visual Stream。该文研究涉及计算机视觉与语音处理的交叉。
论文信息:
作者来自:印度 IIIT Hyderabad 和英国巴斯大学。
语音增强是语音处理的经典研究内容,以往的语音增强往往只将语音作为输入信号,这在现实世界的嘈杂环境中往往效果不佳。
近年来一种视觉辅助的语音增强技术取得了突破,通过跟踪视频中人物口型,可以较好的辅助过滤环境噪声。但其需要人物正脸在视频中,使用场景较为狭窄,毕竟大多数场景下,没有人物正脸,甚至没有视觉信息辅助。
该文学者指出,实际上根据语音进行唇语合成已经是一个较为成熟的技术,在现有框架下,可以直接使用语音信号本身合成人物口型的视频,进而辅助语音增强。
以下视频展示了最终语音增强的效果:
该文在多个数据集上取得了SOTA的结果,并且该技术可以用于任何语言的语音增强,但由于其中含有视觉生成部分,估计相比传统算法时间开销较大。作者已经开源了代码,感兴趣的朋友可以试一下。
论文:
https://arxiv.org/abs/2012.10852
代码:
https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising
无中生有!没有视觉信号的视觉语音增强相关推荐
- 语音增强原理之噪声估计
语音增强的整个过程,通常假设噪声为加性随机平稳噪声,且语音短时平稳,下面的原理描述中,都是在这两个假设前提之下来做的.整个语音增强的流程大致可以分为两大部分 一.噪声估计 二.衰减因子(有的地方也叫做 ...
- AliCloudDenoise 语音增强算法:助力实时会议系统进入超清音质时代
简介:近些年,随着实时通信技术的发展,在线会议逐渐成为人们工作中不可或缺的重要办公工具,据不完全统计,线上会议中约有 75% 为纯语音会议,即无需开启摄像头和屏幕共享功能,此时会议中的语音质量和清晰度 ...
- 基于维纳滤波的语音增强算法 matlab,基于维纳滤波语音增强算法的改进实现
通过对维纳滤波的介绍,实现了基本维纳滤波效果;利用两级维纳滤波和两级滤波器组滤波方法实现了语音增强,达到了良好的效果. 维普资讯 http://doc.docsou.com 文章编号:0 2 8 8 ...
- 语音增强相关技术综述
1 非监督语音增强技术 2 监督语音增强技术 3 github上提供的源代码及分析 3.1 Dual-signal Transformation LSTM Network 简介 https://git ...
- 功率谱 魏凤英统计程序_单通道语音增强之统计信号模型
[欢迎访问我的博客原文](单通道语音增强之统计信号模型) 1. 信号估计理论简述 信号估计理论是现代统计处理的基础课题[@ZhangXianDa2002ModernSP],在通信.语音.图像领域均有广 ...
- 音视频开发(39)---语音增强
语音增强 1.1 语音增强概况 语音增强,英文名:Speech Enhancement,其本质就是语音降噪,换句话说,日常生活中,麦克风采集的语音通常是带有不同噪声的"污染"语 ...
- 音视频开发(37)---麦克风阵列语音增强(二)
麦克风阵列语音增强(二) 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/zhanglu_wind/article/details/81217093 ...
- 音视频开发(35)---麦克风阵列语音增强
1. 引言 对于语音增强的研究,基本上可以划分成两大分支:单通道的语音增强算法和麦克风阵列的语音增强算法(也称为,多通道的语音增强算法).麦克风阵列的语音增强方法的优势在于考虑了声源的位置信息,可 ...
- 传统语音增强——基于先验信噪比的维纳滤波语音降噪算法
一.基于先验信噪比的维纳滤波语音降噪算法的基本概念 改进的维纳滤波器为基于先验信噪比的维纳滤波器,其原理框图下图所示. 对于第m帧带噪语音信号ym(n)=sm(n)+nm(n) 式中,sm(n)是第m ...
最新文章
- mysql 硬解析 软解析_ORACLE sql语句的硬解析与软解析(收藏)
- MacBookPro M1 13寸开箱体验
- 要搞清楚对象和对象的引用
- SQL基础【五、Where】
- 前端学习(3045):vue+element今日头条管理-创建页面组件
- php 上传文件 例子,php上传文件实例
- 执行Oracle中的sqlldr xxx.ctl命令导入数据时,当错误无法导入时,注意查看「xxx.log信息」
- Python新手学习基础之条件语句——elif语句
- 【路径规划】基于matalb遗传算法机器人栅格地图路径规划【含Matlab源码 022期】
- torch 矩阵运算
- php 获取照片信息,PHP如何读取照片的exif信息实现代码(2)
- Nmap Script脚本使用指南
- SAP系统PP模块常用事务代码
- 离散数学-数理逻辑知识整理(修改版)
- 华为运营商级路由器配置示例 | 公网IPv6 over SRv6 TE Policy
- java免费浏览器,Java swing实现简单的浏览器源码免费分享
- 浅谈solrCloud的分布式设计
- 买手妈妈如何赚钱?赚钱的模式具体是什么?
- 给公司取名的一些原则
- 【MVC-自定义过滤器】
热门文章
- Java网络编程之NIO编程(待补充)
- VS code 调试配置01 Debugging
- http://syy7.com/a/33.php,CVE-2020-7062
- resnet结构_来聊聊ResNet及其变种
- ftp一直弹出用户名密码_不懂操作?手把手教你如何在linux下搭建FTP
- linux ls mv,04_Linux目录文件操作命令1(mv ls cd...)_我的Linux之路
- 求平均数、百分率、最大值、最小值、两个字段相差秒数的SQL
- 电脑上的linux是什么文件夹,linux删除文件夹,详细教您电脑的linux怎么样删除文件夹...
- 沉浸式全息本是什么_够炫酷!联想全息教学设备,构建沉浸式教学场景
- seo日常工作表_seo工作者的日常和苦与甜