中国AI又夺一冠!依图刷榜全球声纹识别挑战赛,刷新纪录,大比分夺魁
鱼羊 发自 凹非寺
量子位 出品 | 公众号 QbitAI
中国军团,继续刷新全球AI各项竞赛。
这一次,是全球声纹识别竞赛;这一次,是独角兽依图。
VoxCeleb说话人识别挑战赛,简称VoxSRC,近日结果公布。
在这场汇聚了中外语音领域顶级高手的挑战赛中,依图(logicworld)以绝对领先优势斩获冠军。
而且挑战赛比拼内容,正是当前语音识别领域最高精尖的“声纹识别”赛道。
之前依图已经展示了视觉感知、语音识别和语义理解等方面的不俗实力。
现在,依图则进一步用一个前沿技术领域的全球冠军,展示了其技术深度之外,在广度方面的开拓。
真是依图出没,气势汹涌。
依图又夺何冠?
VoxSRC,由来自牛津大学,斯坦福国际研究院和麻省理工的学者组织举办。
参赛者包括约翰霍普金斯大学、法国国家信息与自动化研究所、日本电气(NEC)等传统豪强,也有中国的清华大学,天津大学,中山大学,依图科技,平安科技等学校企业。
选手都有备而来,比拼直接而激烈。
指纹识别,人脸识别已经被大众所熟知,但同样作为生物信息识别的一种——声纹识别(即说话人识别),目前还是技术挑战的前沿,常在科幻电影中出现,也常被语音AI公司当展望谈及。
声纹识别权威评判标准不多,但真正检验技术的,VoxCeleb说话人识别挑战赛可能算一个。
其主要考核,是运用AI技术如何能够从自然语音中识别出说话人。
比赛采用的训练数据集为VoxCeleb2,由牛津大学发起提供。这一数据集中的音频全部采集自YouTube,场景包括明星红地毯、名人演讲、真人节目访谈以及大型体育解说等,包含了5994位名人的超过一百万条语音。
这些名人涉及不同的性别,种族,口音,职业和年龄,并且音频中存在各种各样的背景噪声,包括环境突发噪声、背景人声、笑声、回声,室内噪声和录音设备噪声等等。
比赛的测试集则全部没有标注,属于“盲测”,保证了竞赛的公平与公正。
面对如此挑战,想让AI准确提取声学特征、说话人特征,并实现准确的识别匹配,并非易事。
在发表于Interspeech 2018的论文中,VoxCeleb2的作者牛津大学Visual Geometry Group实验室训练出的ResNet-50达到了3.95%的等错误率(EER),超越了当时的基线方法。
而就在这场比赛中,依图不仅大幅刷新该纪录,将EER压缩至0.98%,还超出第二名(1.42%)一个身位,以绝对优势夺冠。
毫无疑问,这是一次技术实力的肌肉展示。
但如果熟悉依图业务,就可能忍不住想得更多。
依图参与全球声纹识别竞赛,又怎会是为了刷榜而刷榜?
技术“冗余”,增强场景化落地
从声纹识别本身来说,作为生物识别技术的一种,应用前景原本就非常广阔。
在个人信息加密领域,更能发挥重要的作用。
作为一种生物识别解决方案,声纹识别在金融等对个人信息安全有高要求的行业当中,也能够提供更高的安全性,强化风控能力。
此外作为智能语音应用落地的更大挑战,声纹识别的攻坚,对于性别年龄画像、语种方言识别,进而做到真正的语音交互千人千面,都是绕不过去的核心问题。
而且随着AI在各行各业的场景化落地越来越普遍,技术冗余,针对不同问题提供不同解决方案,也在成为AI公司竞争力的核心要求。
在各项技术上有实力、有储备,才能发展、落地更全面。
也就意味着,AI公司下一阶段发展,深度和广度,都得兼备。
AI公司的深度&广度
这或许也是依图目前发展开拓的背后思路。
之前,依图被人熟知,更多是“CV四小龙”的并称,强调其在视觉领域的地位。
依图也确实在多项视觉国际比拼中斩获冠军。比如依图连续三年参加美国国家标准技术局(NIST)人脸识别供应商测试(FVRT),连续三次斩获冠军。
在安防、金融和医疗领域,依图的AI视觉能力,也赢得了真实业务场景的认可。
但2018年以来,依图开始展现出强大的“泛化”能力,开始将AI技术打通,并迅速在拓展领域取得核心突破。
在语音领域,其语音识别算法在全球最大的开源中文数据库AISHELL-2上字错率仅3.71%,大幅刷新纪录。
在NLP方面,依图联合广州妇女儿童医疗中心等机构,将自然语言处理(NLP)技术应用于儿科疾病诊断,成果登上《自然·医学》(Nature Medicine),这也创下中国AI医学的新纪录。
其后更令业界震动的是,依图低调部署研发,完成了自主AI芯片“求索”的流片、发布并商用,以“算法即芯片”理念,提出智能密度的新理论,为AI场景化落地,提供坐标参考系。
最近一次,由工信部、公安部及网信办三部委指导主办的“中国人工智能高峰论坛”上,依图AI芯片不仅获得了AI创新之星,依图也在首届多媒体信息识别竞赛中,于11个任务中,斩获10个A级,为所有参赛者中夺冠最多。
所以,依图路径、依图模式,也是时候值得更多讨论了。
这种模式在科技创业的历史中并不陌生。先有垂直深度,然后平台化迁移,打造技术更为全面、应用更加广泛的大平台。
但在AI历程中,这样既要保证深度又有兼顾广度的事情,依图之外,还无人做到。
所以声纹之冠,或许还不是依图实力的全部。
依图之路,也值得上下求索。
你说呢?
— 完 —
加入社群 | 与优秀的人交流
小程序 | 全类别AI学习教程
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「好看」吧 !
中国AI又夺一冠!依图刷榜全球声纹识别挑战赛,刷新纪录,大比分夺魁相关推荐
- 一文看懂“声纹识别VPR” | AI产品经理需要了解的AI技术概念_团员分享_@cony
前言:声纹识别是AI领域中一个看似很小.但其实有机会在近期落地,且比较有意思的细分方向:本文作者是"AI产品经理大本营"团员@cony ,她总结了AI产品经理"最必要& ...
- AI赋能下的声纹识别技术在公共安全领域的深度应用
佳都新太科技股份有限公司 徐建明 1.声纹识别在公共安全领域的应用现状 生物特征是指每个个体所独有的.可以通过技术有效测量.甄别.鉴定与验证的某类生理上的特征或行为上的方式.从生物特征的来源进行区分, ...
- 全球权威声纹识别竞赛斩获双料冠军 网易AI Lab智能技术领先国际
允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI 中国力量,又双叒夺冠了. 这一次,是在全球规模最大.最全面的语音顶会INTERSPEECH 2020上. 挑战比拼内容,则是当前语音研究领域 ...
- AI领域「听风者」:声纹识别5大核心知识点!
https://www.toutiao.com/a6691897670778225160/ 在移动互联网大行其道的时代,人们不用出门不用见面就可以完成很多事情,比如购物.生活缴费.投资理财等,在享受着 ...
- 语音识别已成红海,声纹识别正成为AI领域新热点
https://m.jiemian.com/article/2875117_toutiao.html 相比视觉和语音识别,声纹识别是一个技术门槛相对更高的领域. 记者 | 饶文怡 过去几年有不少人工智 ...
- AnalyticDB向量检索+AI 实战: 声纹识别
简介: 分析型数据库(AnalyticDB)是阿里云上的一种高并发低延时的PB级实时数据仓库,可以毫秒级针对万亿级数据进行即时的多维分析透视和业务探索,向量检索和非结构化数据分析是AnalyticDB ...
- 快商通李稀敏:近场声纹识别将普及,本地化的AI能力是刚需
10月26日,第四届Kaldi线下交流会在北京·小米科技园举行. 李稀敏博士在以"人机语音交互是否必须要先唤醒和离线语音技术在本地端上的实现是否未来的趋势"为题的圆桌讨论.与猎户星 ...
- 使用tensorflow和densenet神经网路实现语谱图声纹识别,即说话人识别。
介绍 本文介绍一种使用tensorflow框架和densenet神经网路实现声纹语谱图识别算法,即说话人识别.本文侧重一种解决方案的思路,仅做了小批量数据的简单验证,收敛效果良好,还没有做大量数据集的 ...
- 中国AI军团争霸机器阅读理解大赛,搜狗创下全球新纪录
边策 发自 凹非寺 量子位 报道 | 公众号 QbitAI 全球AI竞技场,现在全方位成为中国公司实力展示台. 这不,2018年迭代上线的CoQA机器阅读理解大赛,一番你争我赶之后,最终还是形成了中 ...
最新文章
- 解决方案:Error:Execution failed for task ‘:app:compileDebugAidl‘. > aidl is missing
- Android中怎样使用Navicat可视化查看sqllite的数据库(查看db文件)
- 修改注册表 为右键添加快捷命令
- bootstrap禁用点击空白处关闭模态框
- 详测 Generics Collections TQueue (3): OnNotify、Extract
- c 正则提取html,c – 正则表达式以获取HTML表格内容
- remote addr 取到内网ip_内网穿透工具frp
- liunx php apache2,linux apache2部署php
- finditerable 转list_Iterable/Iterator 转 list
- 标图123123666
- 洛谷 题解 UVA1395 【苗条的生成树 Slim Span】
- 二叉树非递归遍历算法(II)中序
- 面经——嵌入式常见面试题总结100题(上)
- 深入理解CSS动画animation
- unbuntu 安装虚拟环境 virtualenv和virtualenvwrapper
- 脉冲神经网络SNN的简介
- 什么是动态代理?动态代理有哪些应用?如何编写动态代理案例
- Linux 内核 notifier机制
- 通过企业微信或者微信公众号发送小程序消息推送功能
- 报告|中国智能音箱已入局全球市场,双重商业模式迅速扩张
热门文章
- flex 客户端缓存SharedObject
- VCTransitionsLibrary –自定义iOS交互式转场动画的库
- jBPM 流程设计器和查看【包括Web形式】的总结
- 查找 framework 文件中是否包含 WKWebView
- Spring框架学习day_01: 框架配置方式/ 管理对象的作用域/ 生命周期/ 组件扫描/ 单例模式:“懒汉式“,“饿汉式“
- Xamarin Essentials教程打开文件
- SQLite中的内连接简化技巧
- DHCP欺骗(DHCP Sproofing)
- Wireshark数据抓包教程之认识捕获分析数据包
- Xamarin iOS教程之编辑界面编写代码