语音领域的波束形成Beamforming小结
目录
1. 背景介绍
2. 多通道信号的公式描述
3. 传统波束形成(delay-and-sum和filter-and-sum)
4. MVDR
4.1 传统MVDR
4.2 融入深度学习的MVDR
5. GEV(Generalized eigenvalue) beamformer
6. GSC(Generalized sidelobe canceler)
1. 背景介绍
波束形成是个很有意思的方向,应用从雷达领域到5G领域,近几年在语音识别领域也大放光彩。本文主要聚焦于波束形成在语音领域的应用。
对于单麦克风来说,没有波束的概念;波束形成主要针对多麦克风阵列,融合多个通道的数据,对噪声和干扰方向进行抑制,增强目标方向的信号。
一种方式是找到目标信号的方向,一般用导向矢量(steering vector)进行表示,基于此增强目标信号;一种方式是找到干扰信号的方向,进行抑制,剩下的就是目标信号。
2. 多通道信号的公式描述
图1:M个麦克组成的线性阵列
观察信号的数学表达(频域形式)如下,这里的
表示信号传到两个麦克之间的时间差,如果声音入射角是theta,还需要乘以,某频率的波传递了多少个周期,再乘以该波的频率
表示连续两个麦克风之间的相位差
其实用表示相位差更容易理解,其中 表示频率f的波长
3. 传统波束形成(delay-and-sum和filter-and-sum)
delay-and-sum: 传统的波束形成可以描述为一个空间滤波器,用该滤波器构建一个特定的波束方向图;可以分解为两步:时间对其和加权求和。时间对齐的物理意义在于,某一固定方向信号,传递到麦克风阵列时,不同麦克之间存在相位差,将信号理解为波,让波对齐,再加权求和就起到了增加信号的作用。时间对齐控制着波束方向,加权求和控制着主瓣的波束宽度和旁瓣的特性。
filter-and-sum: 它是上述delay-and-sum的扩展,将简单的delay操作用滤波filter操作代替,更具扩展性。
4. MVDR
4.1 传统MVDR
阵列采集信号:
目标:得到信号源的无偏、最小方差估计
无畸变约束保证语音不失真,最小输出功率保证干扰噪声被最小化。
转换成带经典约束条件的凸优化问题:
最优解
需要计算出导向矢量和协方差矩阵。
MVDR是一种自适应波束形成器, 而Delay-and-Sum是固定波束形成器。当各个通道的噪声互不相关, 并且具有相同功率的时候, MVDR退化成Delay-and-Sum。如果噪声是一个点声源, MVDR会自适应地在噪声方向形成一个零点。
4.2 融入深度学习的MVDR
引入深度学习的目的:更好的估计目标信号或噪声信号的协方差矩阵。
5. GEV(Generalized eigenvalue) beamformer
GEV同MVDR极为相似,不同之处在于目标准则,MVDR为最小化输出功率(在无畸变的约束下),GEV为最大化SNR。
该问题转换为广义特征值问题(generalized eigenvalue problem)
最优波束系数为广义主成分。
不同于MVDR,GEV波束形成器会引入语音失真。需要增加后置滤波(post-filter)。
6. GSC(Generalized sidelobe canceler)
Griffiths and Jim (1982)提出将MVDR分解为两个正交的波束形成器GSC,一个用于满足无畸变响应约束,另一个用于噪声功率最小化。
固定波束形成器
阻塞矩阵:为产生只包含噪声的信号
自适应噪声相消器:用于消除固定波束形成中的噪声信号
参考资料
[1] Fundamentals of Signal Enhancement and Array Signal Processing
[2] 麦克风阵列信号处理
[3] NEURAL NETWORK BASED SPECTRAL MASK ESTIMATION FOR ACOUSTIC BEAMFORMING
[4] Audio source separation and speech enhancement
语音领域的波束形成Beamforming小结相关推荐
- 语音领域的「ImageNet时刻」为何迟迟不来?
目前在计算机视觉领域已经有了一个普遍认识,那就是 ImageNet 预训练对于下游任务的有效性,来自 silero.ai 的俄国数据科学家 Alexander Veysov 将这一现状称为实现了「Im ...
- 语音领域,对于入门学生和初入职场者需要具备什么能力?
本文整理的三个问题是老师们对于现在是否有必要学习传统方法以及给工作中的伙伴们的一些建议,文末整理了大家在直播中提问的一些问题,希望大家可以通过老师的分享能够有所启发. 分享嘉宾(排名不分先后) 吴本谷 ...
- Google DeepMind 声称在合成语音领域取得突破
Google旗下的DeepMind声称在 计算机语音合成领域取得巨大飞跃.这一技术进步可能会令机器像人一样"自然"发声的一天提前到来.该公司研究人员表示,由人类听众对其系统的测试显 ...
- superb(一个语音领域的评测平台)评测任务学习笔记
phoneme recognition:未查到精确相关的,但感觉和语音识别类似,就是将声学特征映射到具体的因素,可以是一个分类任务. query by example:只能查到和数据库相关的内容(ht ...
- 语音领域的自适应滤波
自适应滤波的基本原理比较直观,具体可以参考[1] 主要说明下期望信号的理解, 针对语音增强任务,期望信号就是当前时刻的信号: 针对回声消除任务,期望信号就是参考信号. [1]https://zh.wi ...
- 语音领域 区分Spoken Term Detection和Spoken Document Retrieval
目录 背景 STD和SDR的区别 References 背景 在过去的二十年里,口语内容分析已经成为语音处理界一个颇具吸引力的新兴研究课题,因为与口语文档相关的大量多媒体数据向公众开放.关于处理给定的 ...
- 波束形成、回声消除、声源定位及端到端等语音信号处理算法
现今信息技术飞速发展,语音技术源源不断地融入到各个领域,语音信号处理是人机接口的关键技术,已广泛应用于直播.在线通话.智能音箱等产品中. (落地应用) 随着语音产品广泛落地应用,语音行业飞速发展,各大 ...
- 语音信号处理领域国内外高手homepage分享(一)
详细内容见群文件,欢迎大家加入音频/识别/合成算法群交流学习,谢谢! 本内容原创,转载和使用请注明出处,谢谢配合: Zheng-Hua Tan 的主页: http://kom.aau.dk/~zt/i ...
- 音视频开发(35)---麦克风阵列语音增强
1. 引言 对于语音增强的研究,基本上可以划分成两大分支:单通道的语音增强算法和麦克风阵列的语音增强算法(也称为,多通道的语音增强算法).麦克风阵列的语音增强方法的优势在于考虑了声源的位置信息,可 ...
- 说话人性别识别——语音检测初探
目录 一.任务背景和分析 二.特征抽取 librosa wave torchaudio 三.数据集 commonvoice [ 中文] 四.模型训练 1.频域信号+LSTM+2DCNN 2.频域信号+ ...
最新文章
- 用NVIDIA NsightcComputeRoofline分析加速高性能HPC的应用
- 系统发生 1219 错误。 提供的凭据与已存在的凭据集冲突。
- Fireworks 期望,几何分布,概率,三分(2020.12.南京)
- 18.虚拟机linux上网问题
- TortoiseSVN配置管理使用详解
- 老是说我编译版本不够_海思3518E编译环境搭建
- java基础知识点(6)——循环语句for-while
- pandas缺失值处理
- C++ 中map容器
- 萝卜小姐的整车第一弹—MCU 软件烧录及升级说明
- 宝塔面板添加站点及运营商SSL免费证书的申请与使用
- 7-3 敲笨钟 (20 分)Java
- 【LINUX】自己整理的干货,拿去看吧,不谢!!!。。。。。。。。。。。。
- 你是想读书,还是想读完书?
- flowchart流程图编程语言下载_流程图(flowchart)
- 最简单的 Git 入门教程
- 【图文详细 】Linux上的MySql安装,小老弟假如看不懂,请评论攻击我!
- 分享|GB4943.1-2022标准更新差异测试解读
- 应聘Java笔试时可能出现问题及其答案
- Android适配器之ArrayAdapter、SimpleAdapter和BaseAdapter的简单用法与有用代码片段
热门文章
- Android实现IOS轮效果(Android Studio)
- 如何提高自制力?自制力差怎么办?
- 数据结构、算法、程序的关系
- 【群晖秘籍】群晖添加第三方套件,让可用功能更多更好(任性拓展)
- 编译原理( 词法分析程序 语法分析程序 语义分析程序 中间代码生成程序 代码优化程序 目标代码生成程序 符号表管理程序)
- Freemarker商品详情页静态化服务调用处理
- Python 练习实例21 猴子吃桃问题
- win10插上耳机还外放(win10插上耳机还外放怎么设置)
- 飞思卡尔RTI实时中断模块
- cookie的保存 jq,如何使用jQuery读取Cookie并将其存储在变量中?