在声纹验证及声纹识别任务中,注册语音和测试语音之间的得分受到环境差别、语义内容不同等因素的影响,为了更好的确定阈值,需要对得分进行标准化。以AS-norm为例(搞懂这个,其它的so easy),具体步骤如下:

  1. 构造冒认语音集,需要与注册语音及测试语音不同的speaker;
  2. 分别计算注册语音及测试语音与冒认语音集的余弦相似度score;
  3. 从两个score序列中分别选取topk个score并计算mean和std;
  4. 根据计算出的两个mean和std对注册语音和测试语音之间的score标准化;
    代码如下:
def AS_norm(score, enroll_embedding, test_embedding, cohort_embeddings, topk):# score 代表注册和测试语音的score;*_embedding 代表测试和注册语音;cohort__embeddings 代表冒认数据集# 计算测试语音与冒认数据集的socreenroll_scores = torch.matmul(cohort_embeddings, enroll_embedding.T)[:,0] enroll_scores = torch.topk(enroll_scores, topk, dim = 0)[0]enroll_mean = torch.mean(enroll_scores, dim = 0)enroll_std = torch.std(enroll_scores, dim = 0)# 计算注册语音与冒认数据集的socretest_scores = torch.matmul(cohort_embeddings, test_embedding.T)[:,0]test_scores = torch.topk(test_scores, topk, dim = 0)[0]test_mean = torch.mean(test_scores, dim = 0)test_std = torch.std(test_scores, dim = 0)# score normscore = 0.5 * (score - enroll_mean) / enroll_std  + 0.5 * (score - test_mean) / test_stdreturn score

需要注意的点:
1). 冒认数据集需要与测试(注册)数据具有相似的分布,包括场景、语种、信道、性别等;
2). 冒认数据集中的每一个speaker尽可能只包含一个语音片段;
3). 可基于冒认数据集score的平均值设置一个从负到正4-5倍标准差的“安全”区间,消除/拒绝异常值分数;
参考文章:Analysis of Scnore Normalization in Multilingual Speaker Recognition(https://www.isca-speech.org/archive_v0/Interspeech_2017/pdfs/0803.PDF)

声纹验证和声纹识别中的AS-norm、Z-norm、T-norm、ZT-norm、 S-norm操作相关推荐

  1. 【论文解读】经典CNN对2D3D掌纹及掌静脉识别的性能评估

    掌纹识别(palmprint recognition)及掌静脉识别(palm vein recognition)作为两种新兴的生物特征识别技术已经引起广泛关注.最近几年,深度学习已经成为人工智能领域最 ...

  2. yii2 模型中set_Day184:人脸识别中open-set与close-set

    人脸识别 可以简单的分为如下两类: face verification:人脸验证时将人脸分类到某个ID,比如给定两张人脸,判断是否是同一个人(ID) face identification:给定一张人 ...

  3. 9、 Struts2验证(声明式验证、自定义验证器)

    1. 什么是Struts2 验证器 一个健壮的 web 应用程序必须确保用户输入是合法.有效的. Struts2 的输入验证 基于 XWork Validation Framework 的声明式验证: ...

  4. 【CVPR 2018】腾讯AI lab提出深度人脸识别中的大间隔余弦损失

    论文导读] 深度卷积神经网络(DCNN)在人脸识别中已经取得了巨大的进展,通常的人脸识别的核心任务都包括人脸验证与人脸识别,涉及到特征判别.很多模型都是使用Softmax损失函数去监督模型的训练,但是 ...

  5. 计算机视觉子方向,计算机视觉方向简介 | 人脸识别中的活体检测算法综述

    原标题:计算机视觉方向简介 | 人脸识别中的活体检测算法综述 本文转载自"SIGAI人工智能学习与实践平台"(ID:SIGAICN) 导言 1. 什么是活体检测? 判断捕捉到的人脸 ...

  6. 人脸识别中Softmax-based Loss的演化史

    点击我爱计算机视觉标星,更快获取CVML新技术 近期,人脸识别研究领域的主要进展之一集中在了 Softmax Loss 的改进之上:在本文中,旷视研究院(上海)(MEGVII Research Sha ...

  7. 中科院地平线开源state-of-the-art行人重识别算法EANet:增强跨域行人重识别中的部件对齐...

    点击我爱计算机视觉标星,更快获取CVML新技术 编者按:前几天就看到这篇论文EANet,非常非常棒,有幸征得原作者同意授权"我爱计算机视觉"转载,感谢各位大佬的优秀工作~ 最重要的 ...

  8. 苹果叶片病害识别中的深度学习研究

    苹果叶片病害识别中的深度学习研究 1.研究内容 基于DenseNet-121深度卷积网络,提出了回归.多标签分类和聚焦损失函数3种苹果叶片病害识别方法. 2.数据集介绍 用于识别的图像数据集来源于Ai ...

  9. 基于matlab活体检测,人脸识别中活体检测算法综述.PDF

    人脸识别中的活体检测算法综述 SIGAI 2018.9.19 原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的. 1. 什么是活体检测? --> 判断捕捉到的 ...

最新文章

  1. 【node】express中mysql的基本用法、连接池的使用、事务的回滚
  2. mysql 函数,关键字,特性
  3. JavaWeb:JSP
  4. Redis面试题详解
  5. 图片中的暖色或冷色滤色片是否会带来更多点击? —机器学习A / B测试
  6. 在word中插入代码段的方法[转]
  7. 单片机模数转换实验c语言程序,单片机实验AD转换实验
  8. OSPF路由协议概念及工作原理
  9. C# 直接选择排序(史上最清晰,最通俗)
  10. JVM飙高排查脚本-结构分析
  11. 部分格式文件解释以及万能文件查看器下载
  12. 制作业信息化为什么难施行?
  13. switch 连接 LG 48GQ900 没有声音
  14. Xcelsius 使用XML做为数据源 ----利用ASP与数据库进行交互,即时刷新
  15. 惠海半导体H7230直接替换BP1371 BP1361方案设计
  16. 分享AI前端硬件识别4G摄像头模组方案
  17. LDA模型中文文本主题提取丨可视化工具pyLDAvis的使用
  18. HDU 3605 Escape【最大流】
  19. 安全狗等级保护建设服务内容有哪些?
  20. Python灰色关联度

热门文章

  1. Real6410移植linux-2.6.39.1记录(3)-USB驱动移植(USB HOST以及USB OTG)
  2. python儿童培训课程
  3. 免费版的mp3格式转换器有哪些?这三款软件帮你实现!
  4. WPF编程--Modbus通信Demo
  5. java期末复习题-110道选择题
  6. javascript原生—悬浮导航栏
  7. 数学 ( 解高次同余方程 )——Discrete Logarithm Problem ( UVA 7457 )
  8. 多多情报通:拼多多可以看到什么软件?拼多多的大数据分析软件是什么?
  9. 中兴三层交换机基本配置
  10. python使用xlwings操作wps