雷刚 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

一个AI音箱,认得每一个说话的对象。

所谓“千人千面”,此之谓也。小孩说话,它就依照小孩的喜好和模式,老人票友,它的智能推荐也相应变化……

总之一个音箱,对每一个跟他说话的人,都能分辨清楚——对人类再正常不过的能力,对AI却并不容易。

幸好,Google今天把这种AI正在追求的能力,又往前推进了一步。

而且论文放出,核心算法开源,就等你也来试试了。

RNN模型

Google的新方法,是通过递归神经网络(RNN)模拟说话者的输入,只要开始发言,每个说话者都会建立一个属于他的RNN模型,然后在过程中,不断更新相应的RNN状态。

加入我们正在进行一场多人会议,音频输入是线性的,但在Google这个模型中,会按照不同音色进行不同标注。

黄色代表一个发言者,红色又是另一个,然后黄色嘉宾发言者又接着发言了。

之前在进行类似的研究时,通常基于聚类算法,都是无监督学习的方法,因此给每个发言者打标签不容易。

另外,发言者混合交织发言,让无监督学习的模型最终效果亦打折扣。

但RNN不同,在这次研究者中,Google同学专门在中餐厅进行了训练(其中几位作者都是中国人)。

在中餐厅中,发言人未知且人数不确定。然后在开始发言后,他们一旦被识别,就会有对应的RNN模型,每个人都被建了一个,然后相应发言者有更新,就会在他的RNN模型上更新。

效果

论文中称,他们把核心算法放在数据集NIST SRE 2000 CALLHOME上验证,最后得出的在线分类错误率(DER)低至7.6%。

更早之前,他们旧方法的错误率还是8.8%.

那92.4%的准确率意味着什么呢?

对实时应用程序而言,已足够高了。

意义

或许你会问了,有啥用嘞?

智能音箱自不必说了,如果你家音箱能认得你家每一个人,自然个性化的AI体验会好很多很多。

另外在很多会议速记、影视作品配字幕配音的过程中,也能应用。

你可能也会用过一些所谓的“AI速记”产品,但一到多人会议就惨不忍睹了。

所以Google这次开源,可能会帮到他们。

至于更多实现或应用,感兴趣的盆友,欢迎自己上手~

传送门

论文地址:

https://arxiv.org/abs/1810.04719

开源地址:

https://github.com/google/uis-rnn

年度评选申请

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

活动策划招聘

量子位正在招聘活动策划,将负责不同领域维度的线上线下相关活动策划、执行。欢迎聪明靠谱的小伙伴加入,并希望你能有一些活动策划或运营的相关经验。相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

Google开源新AI模型,语音区分准确率92%创新高 | 论文+GitHub相关推荐

  1. Facebook新AI模型SEER实现自监督学习,LeCun大赞最有前途

    Fly-AI竞赛服务平台 flyai.com 在开始学习之前推荐大家可以多在FlyAI竞赛服务平台多参加训练和竞赛,以此来提升自己的能力.FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站 ...

  2. AI做不了“真”3D图像?试试Google的新生成模型

    编译 | 若名 出品 | AI科技大本营 用 AI 生成逼真三维物体模型并不像人们以为的那么困难. 近日,在 NeurIPS 2018 会议上接收的论文" 视觉对象网络:图像生成与分离式的3 ...

  3. Google开源新TensorFlow运行时TFRT,将取代现有进行时

    来源:AI前线 本文长度为2000字,建议阅读5分钟 本文带大家了解Google新开源 TensorFlow RunTime. 4 月 30 日,谷歌宣布开源 TensorFlow RunTime ( ...

  4. 腾讯提出蛋白质研究AI模型,预测准确率刷新纪录,入选Nature子刊

    蛋白质相互作用(PPI)可以说是人体最重要的分子事件之一,事关人体生长发育.新陈代谢,是疾病治疗干预的重要来源,PPI失调会导致癌症等疾病发生,因而该领域也是医药行业关注的研究热点. 为了更好地预测和 ...

  5. Facebook新AI模型实现直接从非英语语言翻译到另一种非英语语言

    据外媒报道,机器翻译技术自诞生以来走过了漫长的道路.虽然像谷歌这样的翻译曾经粗糙.不可靠,而且只对最基本的翻译有用,但如今,由于AI的力量,它们可以实现惊人的准确.然而一些古老的翻译方法仍然存在. 比 ...

  6. 文本生成视频Make-A-Video,根据一句话就能一键生成视频 Meta新AI模型

    Meta公司(原Facebook)在今年9月29日首次推出一款人工智能系统模型:Make-A-Video,可以从给定的文字提示生成短视频. Make-A-Video研究基于文本到图像生成技术的最新进展 ...

  7. 独家 | 围绕DeepMind最新AI模型的炒作,忽视了它真正值得注意的地方(附链接)...

    文: Melissa Heikkilä 2022 年4月22日 翻译:陈超校对:zrx本文约1800字,建议阅读5分钟 一些人担忧关于这些工具喋喋不休的讨论正在对整个领域造成负面的影响. 这个月早期, ...

  8. Google发布新API,支持训练更小、更快的AI模型

    雷锋网消息,Google今天发布了 Quantification Aware Training(QAT)API,使开发人员可以利用量化的优势来训练和部署模型AI模型.通过这个API,可以将输入值从大集 ...

  9. 直接拿来用!Google 新推 AI 模型打破了现有 CNN 技术壁垒

    [CSDN 编者按]CNN,即卷积神经网络是非常适合目标识别和面部检测等任务的多层神经元模型,但是在其精度达到一定程度后再想提升就极为困难.而近日 Google 推出的图像分析 AI 模型就打破了现有 ...

最新文章

  1. 多模型不仅是不同的初始化值会得到不同状态(多态微调结构网络)
  2. 第三周进步奖得主分享心得,带你一起快速上分!
  3. 13.C++ vector 操作
  4. linux 软件包安装管理
  5. 编译DXperience 7.1源码和升级原有的应用程序
  6. 数据结构C语言版第二版答案 严蔚敏 李冬梅 吴伟民 编著
  7. 数据源:SHP数据下载平台
  8. js java 乱码_js和java 中文乱码
  9. Java学习-Java系统介绍
  10. 实对称矩阵一定要用正交矩阵来对角化吗?
  11. 期货开户公司受到证监会的监管
  12. 华盛顿邮报专访苹果CEO库克:带领苹果是个孤独的工作
  13. docker操作时使用https时报错问题解决
  14. 小米机顶盒显示网络无法连接服务器,小米盒子无线网络连接不上怎么回事 - 卡饭网...
  15. Java将OFD文件转PDF文件
  16. 如何改域的NETBIOS名?
  17. 云服务器可以用来做什么?
  18. 走近后厂村程序员的真实生活:拿命换钱
  19. 图书管理系统-GUI Mysql 数据库课程设计-更新版
  20. idea调整代码标签编辑器标签editor tabs的横排和竖排

热门文章

  1. 最强 IDE 之争:Eclipse 还是没超过 Visual Studio、Xcode 回温
  2. 花 30 万招聘的高级程序员,真的值吗?
  3. 微信数据有望彻底删除了!史上最严隐私法规 GDPR 正式推行
  4. 金立手机用60亿“砸死”了自己
  5. 动荡的 Java 今年将有哪些新变化?
  6. “宇宙最强”GPU —— NVIDIA Tesla V100 面向开发者开放试用!
  7. 开发者们,2017年你们过得好吗?
  8. 智能手机下半场迎来淘汰赛:有的拼供应链,有的打起了 AI 的主意
  9. 那些一心想要离开 BAT 的人,后来怎么样了?
  10. c语言按键中断程序,单片机C语言代码:外部中断,按下中断按键LED不亮,LED1正常亮...