一文读懂声纹采集、声纹识别、声纹数据库系统等声纹识别技术在公安业务领域的应用场景

查指纹、查人脸、查DNA，这些都已成为了公安机关打击违法犯罪分子的重要技术手段，然而还有另外一种技术手段，在上述无法做到的情况下，依然可以让犯罪活动无所遁形，那就是声纹识别技术。

声纹识别是生物识别技术的一种，也称为说话人识别，有两类，即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。声纹识别就是把声信号转换成电信号，再用计算机进行识别。

一、声纹识别的技术优势

声纹识别的应用有一些缺点，比如同一个人的声音具有易变性，易受身体状况、年龄、情绪等的影响；比如不同的麦克风和信道对识别性能有影响；比如环境噪音对识别有干扰；又比如混合说话人的情形下人的声纹特征不易提取；……等等。尽管如此，与其他生物特征相比，声纹识别的应用有一些特殊的优势：

蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高；
获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备；
适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路(通讯网络或互联网络)实现远程登录；
声纹辨认和确认的算法复杂度低；配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率……等。

这些优势使得声纹识别的应用越来越受到系统开发者和用户青睐，声纹识别的世界市场占有率15.8%，仅次于指纹和掌纹的生物特征识别，并有不断上升的趋势。

在公共安全领域，为更好进行声纹识别的应用落地，对算法提出了更高的要求。声纹识别技术使用学术界最前沿的特征提取技术，结合多种声纹识别的前端语音信号处理算法，在不断更新迭代中形成了的技术优势。

（一）先进的声音处理技术

领先业界的前后端语音处理技术，包括人声检测VAD算法、语音降噪、快速语音增强算法、语音质量评估算法，有效保证注册和验证的效果。

（二）先进的特征提取算法

使用学术界最先进的深度神经网络，以及端到端神经网络的训练方法，从大量样本中学习到高度抽象的音素特征，在相同的声纹数据中能提取更多的特征信息，并对噪声有很强的免疫力，大大提升算法准确率。

（三）高准确率

在公安领域中，声纹识别一般使用长自由文本算法模型，在长自由文本模型下，EER小于0.64%，准确率达98.1%以上。在1：N比对中，TOP1命中率超过96.1%，在此种准确率前提下，可为公安应用提供最好的落地保障。删除

（四）高鲁棒

性公安领域中真实案件中，检材都是五花八门，录音文件都可能使用各种不同的设备录制的，那么就需要考验声纹识别算法在不同噪声环境下的适应性、各种文本类型适应性、跨信道适应性上的表现，当具备了上述的优秀表现后，才保证了在不同应用场景下算法性能的稳定。下图为在不同噪音下可以通过动态分数偏移的算法，保持了高鲁棒性。删除

二、声纹识别在公安业务中的具体应用

声纹识别技术能够为公安行业带来以往战法的突破，助力科技强警，为案件侦破过程提供新的线索和证据，对于提高办案效率，优化办案方式，提高办案质量，提升案件侦破能力都将起到积极的推动作用，在维护国家安全、打击犯罪工作中具有非常重要的意义。

通过独特的算法，可在多人对话场景中进行精准的声纹识别，分离出单个说话人音频，并识别出每个人的说话内容。适用于公安动态布控、大型会议记录等应用场景。此外，相对于指纹、虹膜、人脸等识别技术，声纹在远程采集与识别上具备先天的优势，且仅需普通麦克风或其它易于集成麦克风的设备（如监控摄像头、便携式执法记录仪等），采集自然、便利，在不被采集对象发觉的情况下即可完成采集与识别。

声纹技术大幅提高了远程采集的成功率及识别的准确性，从技术上具备了远程采集与识别的可行性。

（一）声纹采集系统

声纹库为声纹识别应用的基础，声纹采集系统主要部署在公安各基层信息采集室中，用于对重点人员的声纹信息进行采集，形成继指纹、DNA库后又一个生物特征库，声纹数据库，为案件侦破提供一种新的技术手段，为各警种提供一套新的个体识别应用平台。

声纹采集系统主要有两部分组成，一个是硬件部分的声纹采集器，一个是软件部分的声纹采集管理系统，声纹采集器主要负责高保真声音的采集，确保采集到的声音文件可以在后续算法和硬件不断迭代的过程中还可以使用。声纹采集管理系统主要是针对采集到的语音文件进行管理，如被采集人信息、案件信息等，以及可以一键上传到国家库。上图是由声纹行业老牌产商快商通为公安系统量身定制的高保真标准声纹采集设备，配套智能化声纹采集系统，功能集采集、入库存储于一体，采用智能化麦克风集群，一次录入即可采集到符合公安机关声纹建库要求的高质量声纹数据，满足《声纹数据采集终端技术要求》各项指标，为声纹鉴定和比对提供坚实的基础。其优势功能主要是：智能语音质量检测、支持多种采集模式、高保真录音

（二）声纹比对系统

声纹比对系统提供1：N大库检索比对，支持千万库容建设。在使用的实际数据测试的实验中，用159449句语音，与12782个说话人进行约10亿次比较，154027条语音对应的实际说话人直接命中top1，也就是说top1的直接命中率为96.6%。根据该性能表现，在较好的测试数据集下（声音噪音、信道、有效语音时长、采样率比较理想的情况下），一万人的平均返回比中排名约为1.5位，十万人返回排名约为9.7位。目前国内在声纹比对系统做的比较好的当属厦门的快商通公司，其自主研发的行业领先的高性能声纹识别引擎技术，是目前市面上唯一支持亿级规模库实时检索比对的声纹识别系统，检索时间小于1s，声纹识别准确率超过99%。

（三）声纹鉴定工作站

除了具备传统声纹工作站的一般功能以外，声纹工作站独有的音素检索技术可协助鉴定人员，从音频数据中检索出特定的音素。使用传统的声纹工作站，声纹鉴定人员需要反复听检材以确定其中是否出现特定的音素。声纹鉴定工作站可以极速自动搜索、定位检材中是否包含特定音素，将工作效率提高20倍以上，为声纹的实时识别和快速鉴定提供了极为可靠的技术基础。

（四）声纹实战平台

作为一项非常前沿的技术，声纹数据库及识别系统与已有的指纹库、DNA库、人像库类似，助力科技强警，但又更适应新形势下公安实战及维护人民安全和社会稳定的需求。作为一项基础性和创新性工作，以声纹识别系统为核心，公安机关可建成两大应用平台后可直接为刑侦、治安、反恐、治安管理等多警种服务，成为打击犯罪的一项新的高科技手段和增长点，也能够为处理重大突发事件、侦破重大、疑难案件提供重要且无法取代的技术手段。

在新形势下，基于声纹信息的目标人监控已经成为技侦领域的重要技术手段之一，声纹库的建设将为各个语音侦控系统提供高质量的声纹信息源，并实现自动监控，其应用前景非常广泛。

声纹侦查作战平台：以破案、追逃为导向，利用声纹识别技术进行"案查人"、“人查案”、"案查案"与"人查人"等多种排查方式。
【案查人】如电信诈骗，主要线索只有语音的情况下，将该语音进行声纹库大库检索，快速锁定嫌疑人。
【人查案】公安抓捕到可疑人员后，提取出该人的声纹特征，将其放入尚未侦破的语音案件中，排查该人是否为在逃人员。
【案查案】公安人员可使用声纹识别技术将尚未侦破的语音案件以及语音线索归纳整理，从中排查是否有多起案件是同一人所为，帮助侦察人员获得更多线索，提高排查效率。
【人查人】公安机关在抓捕到可疑人员后，提取出该人的声纹特征，为避免该人使用伪造身份，可将其声纹特征放入已知人员的声纹库，查询其真实身份。

（五）动态声纹布控平台

动态声纹布控平台：以布控、预警为导向，通过声纹生物特征与语音内容多维识别，在包含电信和互联网范围内实行有效动态布控、预警，消除潜在风险。动态声纹全网布控是基于声纹识别技术，结合与技术侦查、自动监听等技术，将各种通信及语音中的声纹特征及语音内容进行实时、远程、非接触式的主动识别，实现对涉暴、涉恐、涉毒、涉稳等重点防范人员的布控预警，提示安保及公安人员采取控制措施，并持续跟踪监控，可广泛应用于重点区域、重点时段、重点频段、重点社交媒体等语音通信场景，特别适用于对安保要求极为严格的大型峰会或有领导人出席的重要会议区域。

动态声纹全网布控平台能够实时搜索和识别目标人物，既可报警黑名单上的嫌疑人以提高公共安全，还能记录音频流中出现的所有声纹进行归档，建立声纹人员的档案库，实现重点人员的语音分析和行为预测。声纹识别大平台建设是公安机关的信息化工作的重要一环，其需求急迫、专业技术性强、应用广泛，能够有效助力公安机关遏制与打击犯罪、提高风险预警与动态布控能力，突破传统布控模式，实现公安机关的高技术手段和战法的创新，构建和强化安全的社会环境。