中国AI又夺一冠！依图刷榜全球声纹识别挑战赛，刷新纪录，大比分夺魁

鱼羊发自凹非寺
量子位出品 | 公众号 QbitAI

中国军团，继续刷新全球AI各项竞赛。

这一次，是全球声纹识别竞赛；这一次，是独角兽依图。

VoxCeleb说话人识别挑战赛，简称VoxSRC，近日结果公布。

在这场汇聚了中外语音领域顶级高手的挑战赛中，依图（logicworld）以绝对领先优势斩获冠军。

而且挑战赛比拼内容，正是当前语音识别领域最高精尖的“声纹识别”赛道。

之前依图已经展示了视觉感知、语音识别和语义理解等方面的不俗实力。

现在，依图则进一步用一个前沿技术领域的全球冠军，展示了其技术深度之外，在广度方面的开拓。

真是依图出没，气势汹涌。

依图又夺何冠？

VoxSRC，由来自牛津大学，斯坦福国际研究院和麻省理工的学者组织举办。

参赛者包括约翰霍普金斯大学、法国国家信息与自动化研究所、日本电气（NEC）等传统豪强，也有中国的清华大学，天津大学，中山大学，依图科技，平安科技等学校企业。

选手都有备而来，比拼直接而激烈。

指纹识别，人脸识别已经被大众所熟知，但同样作为生物信息识别的一种——声纹识别（即说话人识别），目前还是技术挑战的前沿，常在科幻电影中出现，也常被语音AI公司当展望谈及。

声纹识别权威评判标准不多，但真正检验技术的，VoxCeleb说话人识别挑战赛可能算一个。

其主要考核，是运用AI技术如何能够从自然语音中识别出说话人。

比赛采用的训练数据集为VoxCeleb2，由牛津大学发起提供。这一数据集中的音频全部采集自YouTube，场景包括明星红地毯、名人演讲、真人节目访谈以及大型体育解说等，包含了5994位名人的超过一百万条语音。

这些名人涉及不同的性别，种族，口音，职业和年龄，并且音频中存在各种各样的背景噪声，包括环境突发噪声、背景人声、笑声、回声，室内噪声和录音设备噪声等等。

比赛的测试集则全部没有标注，属于“盲测”，保证了竞赛的公平与公正。

面对如此挑战，想让AI准确提取声学特征、说话人特征，并实现准确的识别匹配，并非易事。

在发表于Interspeech 2018的论文中，VoxCeleb2的作者牛津大学Visual Geometry Group实验室训练出的ResNet-50达到了3.95%的等错误率（EER），超越了当时的基线方法。

而就在这场比赛中，依图不仅大幅刷新该纪录，将EER压缩至0.98%，还超出第二名（1.42%）一个身位，以绝对优势夺冠。

毫无疑问，这是一次技术实力的肌肉展示。

但如果熟悉依图业务，就可能忍不住想得更多。

依图参与全球声纹识别竞赛，又怎会是为了刷榜而刷榜？

技术“冗余”，增强场景化落地

从声纹识别本身来说，作为生物识别技术的一种，应用前景原本就非常广阔。

在个人信息加密领域，更能发挥重要的作用。

作为一种生物识别解决方案，声纹识别在金融等对个人信息安全有高要求的行业当中，也能够提供更高的安全性，强化风控能力。

此外作为智能语音应用落地的更大挑战，声纹识别的攻坚，对于性别年龄画像、语种方言识别，进而做到真正的语音交互千人千面，都是绕不过去的核心问题。

而且随着AI在各行各业的场景化落地越来越普遍，技术冗余，针对不同问题提供不同解决方案，也在成为AI公司竞争力的核心要求。

在各项技术上有实力、有储备，才能发展、落地更全面。

也就意味着，AI公司下一阶段发展，深度和广度，都得兼备。

AI公司的深度&广度

这或许也是依图目前发展开拓的背后思路。

之前，依图被人熟知，更多是“CV四小龙”的并称，强调其在视觉领域的地位。

依图也确实在多项视觉国际比拼中斩获冠军。比如依图连续三年参加美国国家标准技术局（NIST）人脸识别供应商测试（FVRT），连续三次斩获冠军。

在安防、金融和医疗领域，依图的AI视觉能力，也赢得了真实业务场景的认可。

但2018年以来，依图开始展现出强大的“泛化”能力，开始将AI技术打通，并迅速在拓展领域取得核心突破。

在语音领域，其语音识别算法在全球最大的开源中文数据库AISHELL-2上字错率仅3.71%，大幅刷新纪录。

在NLP方面，依图联合广州妇女儿童医疗中心等机构，将自然语言处理（NLP）技术应用于儿科疾病诊断，成果登上《自然·医学》（Nature Medicine），这也创下中国AI医学的新纪录。

其后更令业界震动的是，依图低调部署研发，完成了自主AI芯片“求索”的流片、发布并商用，以“算法即芯片”理念，提出智能密度的新理论，为AI场景化落地，提供坐标参考系。

最近一次，由工信部、公安部及网信办三部委指导主办的“中国人工智能高峰论坛”上，依图AI芯片不仅获得了AI创新之星，依图也在首届多媒体信息识别竞赛中，于11个任务中，斩获10个A级，为所有参赛者中夺冠最多。

所以，依图路径、依图模式，也是时候值得更多讨论了。

这种模式在科技创业的历史中并不陌生。先有垂直深度，然后平台化迁移，打造技术更为全面、应用更加广泛的大平台。

但在AI历程中，这样既要保证深度又有兼顾广度的事情，依图之外，还无人做到。

所以声纹之冠，或许还不是依图实力的全部。

依图之路，也值得上下求索。

你说呢？

— 完 —

加入社群 | 与优秀的人交流

小程序 | 全类别AI学习教程

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧！