PaddleSpeech 全链路声纹识别系统 PP-VPR
(以下内容搬运自 PaddleSpeech)
PP-VPR
目录
- 1. 简介
- 2. 特点
- 3. 使用教程
- 3.1 预训练模型
- 3.2 模型训练
- 3.3 模型推理
- 3.4 服务部署
- 4. 快速开始
1. 简介
PP-VPR 是一个 提供声纹特征提取,检索功能的工具。提供了多种准工业化的方案,轻松搞定复杂场景中的难题,支持使用命令行的方式进行模型的推理。 PP-VPR 也支持界面化的操作,容器化的部署。
2. 特点
VPR 的基本流程如下图所示:
PP-VPR 的主要特点如下:
- 提供在英文开源数据集 VoxCeleb(英文)上的预训练模型,ecapa-tdnn。
- 支持模型训练评估功能。
- 支持命令行方式的模型推理,可使用
paddlespeech vector --task spk --input xxx.wav
方式调用预训练模型进行推理。 - 支持 VPR 的服务容器化部署,界面化操作。
3. 使用教程
3.1 预训练模型
支持的预训练模型列表:released_model。
更多关于模型设计的部分,可以参考 AIStudio 教程:
- ecapa-tdnn
3.2 模型训练
模型的训练的参考脚本存放在 examples 中,并按照 examples/数据集/模型
存放,数据集主要支持 VoxCeleb,模型支持 ecapa-tdnn 模型。
具体的执行脚本的步骤记录在 run.sh
当中。具体可参考: sv0
3.3 模型推理
PP-VPR 支持在使用pip install paddlespeech
后 使用命令行的方式来使用预训练模型进行推理。
具体支持的功能包括:
- 对单条音频进行预测
- 对两条音频进行打分
- 支持 RTF 的计算
具体的使用方式可以参考: speaker_verification
3.4 服务部署
PP-VPR 支持 Docker 容器化服务部署。通过 Milvus, MySQL 进行高性能建库检索。
server 的 demo: audio_searching
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SPIi60ai-1666697523122)(https://ai-studio-static-online.cdn.bcebos.com/7b32dd0200084866863095677e8b40d3b725b867d2e6439e9cf21514e235dfd5)]
关于服务部署方面的更多资料,可以参考 AIStudio 教程:
- speaker_recognition
4. 快速开始
关于如何使用 PP-VPR,可以看这里的 install,其中提供了 简单、中等、困难 三种安装方式。如果想体验 paddlespeech 的推理功能,可以用 简单 安装方式。
P.S. 欢迎关注我们的 github repo [PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech), 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。
PaddleSpeech 全链路声纹识别系统 PP-VPR相关推荐
- 声纹识别概述(3)声纹识别系统
文章目录 1. 声纹识别系统框架 1.0 声纹识别系统 1.0.1 不太清晰的两个阶段:训练阶段和测试阶段 1.0.2 只讲了一个阶段:测试/应用阶段(包括注册和验证) 1.0.3 声纹识别系统的三个 ...
- android声纹识别技术,基于Android平台的声纹识别系统的研究与实现
摘要: 社会的发展越来越快,计算机技术的应用也愈来愈广,已经渗透到生活的各个方面.在快节奏.信息化的时代,需要识别和交互的应用日益广泛,要求验证身份的场合越来越多,迅速判定一个人的身份是一个非常重要的 ...
- 【工程】深度说话人的应用及声纹识别系统的制作 (附完整代码与数据集)
说话人识别系统 (又称声纹识别系统) 论文: 本博客是基于百度的论文Deep Speaker: an End-to-End Neural Speaker Embedding System 的理论上进行 ...
- 你不知道的声纹识别,尽在阿里聚安全攻防挑战赛!
由阿里巴巴安全部主办的"阿里聚安全攻防挑战赛"决战日12月28日即将到来,许多参赛的小伙伴都发现了此次比赛与以往的攻防大赛有很大的不同.就是参赛者可以尝试用声音攻击一套声纹验证系统 ...
- 探秘身份认证利器——声纹识别!
在这个移动互联网大行其道的年代,人们不用互相见面就可以完成很多事情,比如社交.购物.网上开店.金融交易等等,但是如何验证身份变成了人和人在不见面的情况下最难的事情.传统的解决方案就是密码或者秘钥,它需 ...
- [深度学习概念]·声纹识别技术简介
声纹识别技术简介 声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术.从直觉上来说,声纹虽然不像人脸.指纹的个体差异那样直观可见,但由于每个人的声道.口腔和鼻腔也具有个体的差异性,因此反映 ...
- 声纹识别(说话人识别)技术
说话人识别(Speaker Recognition,SR),又称声纹识别(Voiceprint Recognition,VPR),顾名思义,即通过声音来识别出来"谁在说话",是根据 ...
- 声纹识别开源工具 ASV-Subtools
今天非常荣幸有机会在Speechhome语音技术研讨会上分享我们团队在开源项目上的一些工作.今天我分享的主题是声纹识别开源工具ASV-Subtools. 今天我分享的主要有5个部分的内容,分别是背景介 ...
- 知物由学 | 听声辨人,看声纹识别技术如何保障内容安全?
大家对"指纹"并不陌生,但听说过"声纹"吗? "违法犯罪变得越来越困难了.如今罪犯都没法使用电话了,因为侦探们可以通过他们在话筒上留下的声纹来追踪他. ...
最新文章
- NVIDIA GPU上的随机数生成
- 阶乘的累加(3.11)(Java)
- 你的声音作为一种“武器”:人类战争中声学活动
- 计算机视觉开源库OpenCV之照明和色彩空间
- 高德地图:地理/逆地理编码
- FZU 1914 Funny Positive Sequence
- 计算机控制论文,计算机控制系统论文.ppt
- java字节输出流方法,Java-IO:File和字节输入输出流
- Jenkins插件之有用
- Python-面向对象(进阶)
- 了解更多关于11gR2 diskmon
- linux perl 执行java,如何从Java调用Perl?
- python下载不了怎么回事_python怎么下载
- webpack随笔06-bulma
- java 区分大小写_Java区分大小写
- java中函数的调用,java中如何调用函数
- 为什么你的人脉都没什么用!
- 树莓派计算模块CM4搭建软路由OpenWrt+OpenClash过程记录
- 复制一个维基百科!—— 维基技术梳理
- 局域网访问提示无法访问检查拼写_win10无法访问局域网电脑 请检查名称的拼写...