虽然机器语音识别的准确率已经很高,但是从一群人嘈杂的沟通交流中区分每个人说了什么,对于机器来说还是一个艰巨的挑战。Speaker Diarization(发言者语音片段切分归类)是一个将群组发言中不同人不同时间点的语音样本划分和重组为独特的,同质的片段的过程,分离出谁在何时说了什么,这对机器来说可不像人类那么容易,通过训练机器学习算法来执行的难度也比想象的大很多。因为强大的Diarization系统必须能够将新个体与之前未遇到的语音片段相关联。

但谷歌的人工智能研究部门在Diarization的高性能模式上取得了令人鼓舞的进展。在一篇新论文(“ 全监督演讲者Diarization ”)和随附的博客文章中,谷歌研究人员描述了一种新的人工智能(AI)系统,该系统“可以以更有效的方式利用受监督的发言人标签”。

该论文的作者声称核心算法实现了对于实时应用程序而言足够低的在线分类错误率(DER) – 在NIST SRE 2000 CALLHOME基准测试中为7.6%,而谷歌之前的方法为8.8%DER – 目前源代码已经在Github上开源。

上图:流式音频上的发言人分类,底部轴的不同颜色表示不同的发言人。

图片来源:谷歌

谷歌研究人员的新方法通过递归神经网络(RNN)模拟发言者的嵌入(即,单词和短语的数学表示),RNN是一种机器学习模型,可以使用其内部状态来处理输入序列。每个发言者都以自己的RNN实例开始,该实例在给定新嵌入的情况下不断更新RNN状态,使系统能够学习在发言者和话语之间共享的高级知识。

“由于该系统的所有组件都可以以监督的方式学习,因此在可以获得具有高质量时间标记的扬声器标签训练数据的情况下,优于无监督系统,”研究人员在论文中写道。“我们的系统采用全面监督,并且能够从带有时间标记的发言者标签的示例中学习。”

在未来的工作中,团队计划优化模型,以便它可以集成上下文信息以执行离线解码,他们期望这能进一步降低DER错误率。谷歌团队还准备直接对声学特征进行建模,以便整个发言者diarization系统可以进行端到端的训练。

谷歌开源语音识别AI技术,可以从人群中区分每个人的发言相关推荐

  1. 独家 | 那些令人细思恐极的AI技术,哪一个戳中你的命门?

    谈到人工智能,有人会觉得它的出现会造福全人类,例如Facebook的CEO马克·扎克伯格.当然,也有人持反面观点,例如伊隆·马斯克.史蒂芬·霍金,他们认为人工智能发展到某种程度后,可能就会像好莱坞大片 ...

  2. 攻和防谁更厉害?AI技术在恶意软件检测中的应用和对抗

    AI技术的发展为网络安全带来新机遇的同时,黑客也在逐渐利用AI漏洞建立对抗样本以躲避攻击,双方在各自领域的更多尝试也将是AI技术发展的一场新博弈.那么,在应用中,如何利用AI检测技术与恶意软件展开对抗 ...

  3. 围棋 android 开源,腾讯正式开源围棋AI技术PhoenixGo

    PingWest 品玩 5 月 11 日消息,微信团队研发的 PhoenixGo 正式开源,这也是国内第一个开源的围棋 AI 项目.PhoenixGo 是腾讯微信翻译团队开发的人工智能围棋程序,旨在学 ...

  4. 谷歌开始用AI技术帮助数据中心散热节省成本

      庞大数据中心内部不仅非常嘈杂,而且温度也非常高.为了防止服务器过热是数据中心运营者面临的一个主要挑战.因此,包括Facebook.微软和谷歌在内的这一领域的大公司都在寻找节约冷却成本的不同方法,这 ...

  5. AI技术在游戏开发中的五种有效尝试

    AI,即人工智能(Artificial Intelligence) ,当下处于风口浪尖的AI莫过于谷歌推出的AlphaGO(阿发狗).其实作为玩家在游戏中最为常见的对手,几乎每一个游戏里面都有AI的存 ...

  6. AI 技术实力图谱全解析!2018 中国 AI 开发者大会重磅来袭

    [2018 AI 开发者大会图文直播] 11 月 8 日,由中国专业 IT 社区 CSDN 与硅谷 AI 社区 AICamp 联合出品的 2018 中国 AI 开发者大会(AI NEXTCon) 在北 ...

  7. 漆远:小数据学习和模型压缩存挑战,场景成为 AI 技术发展关键

    "蚂蚁金服是一家技术驱动的公司,我们做的事情,是使 AI 技术成为普惠金融的支点."蚂蚁金服副总裁.首席科学家漆远博士,在有中国" AI 春节"之称的新智元20 ...

  8. 一文看懂“声纹识别VPR” | AI产品经理需要了解的AI技术概念_团员分享_@cony

    前言:声纹识别是AI领域中一个看似很小.但其实有机会在近期落地,且比较有意思的细分方向:本文作者是"AI产品经理大本营"团员@cony  ,她总结了AI产品经理"最必要& ...

  9. 我是AI产品经理,就必须掌握AI技术吗?

    作为一个人工智能(AI)产品经理,我们需要对AI技术有了解吗?为什么?需要了解到什么程度呢?我们该如何达到这样的程度? 本文将就以上问题进行探讨,作者将尝试根据自己的相关工作和学习经验给出答案,供读者 ...

最新文章

  1. oracle实例由,Oracle数据库和实例
  2. knn聚类还是分类_数据分析基本算法模型之KNN算法
  3. jQuery 之正则表达式篇
  4. AIX的异步IO设置
  5. 【数理知识】《矩阵论》方保镕老师-第1章-矩阵的几何理论
  6. 验证手机号码的正则表达式
  7. cpp 一个文件分成两个文件写_为ORB-SLAM2写一个launch文件
  8. MYSQL返回指定时间间隔函数DATE_SUB和TO_DAYS详解
  9. 耗时又繁重的SQL诊断优化,以后就都交给数据库自治服务DAS吧!
  10. 人工智能python营_贪心学习院人工智能python编程特训营
  11. 请大家慎用联想笔记本的NOVO功能
  12. HTML知识积累及实践(三) - 列表标签
  13. nginx 设置端口访问网站
  14. 易语言linux时间戳转换,易语言unix时间戳转易语言格式源码
  15. FPGA-Verilog实例----线性反馈移位寄存器(LFSR)
  16. 计算机导论论文含图,计算机导论(论文).doc
  17. 读书笔记之吴伯凡·认知方法论
  18. html5+连连看+抽奖,html 大转盘抽奖
  19. Qt高级教程图形视图部分
  20. 苹果摆脱对中国制造的依赖?iPhone14的拆解结果显示恰恰相反,更离不开中国制造了...

热门文章

  1. 8.BLE---错误码
  2. 关于win10 使用eclipse如何配置环境变量
  3. c# 定义operator运算符
  4. 飞舞的蝴蝶(GraphicsView框架)
  5. 鼠标移开事件(onmouseout)
  6. 夺命雷公狗—angularjs—15—内置封装好的计时器$interval和$timeout
  7. elk平台分析nginx日志的基本搭建
  8. ADB server didn't ACK问题
  9. IE9或以上的浏览器flash值为空时,导致domready不触发
  10. Bailian4122 切割回文【DP】