点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

羿阁 发自 凹非寺
量子位 | 公众号 QbitAI

逼近人类水平的语音识别系统来了?

没错,OpenAI新开源了一个名为「Whisper」的新语音识别系统,据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性!

不仅如此,对于不同口音专业术语的识别效果也是杠杠的!

一经发布就在推特上收获4800+点赞1000+转发

网友们纷纷对它意料之外的强大功能表示惊讶。

不仅是英文,有人用法国诗人波德莱尔的《恶之花》进行了语音测试,得到的文本几乎与原文一致

OpenAI联合创始人&首席科学家Ilya Sutskever就表示:

终于有一个靠谱的语音识别系统能听懂我的口音了。

前任特斯拉人工智能总监Andrej Karpathy甚至转发评论:OpenAI正处于最好的状态中。

话不多说,让我们看看这个被“好评如潮”的语音系统究竟是怎么回事。

逼近人类水平的语音识别系统

首先,Whisper最大特点是它使用的超大规模训练集

它使用从网络上收集的68万小时的多语言、多任务监督数据进行训练。

这导致数据集的内容非常多元化,涵盖了许多不同环境、不同录音设备下、不同语言的音频。

具体而言,65%(438218小时)是英语音频和匹配的英语文本,大约18%(125739小时)是非英语音频和英语文本,而最后17%(117113小时)则是非英语音频和相应的文本。

其中,非英语部分共包含98种不同语言。

不过,虽然音频质量的多样性可以帮助提高训练模型的鲁棒性,但转录文本质量的多样性并不是同样有益的。

初步检查显示,原始数据集中有大量不合格的、现有自动语音识别(ASR)系统生成的转录文本。

而以往的研究表明,在人工和机器混合生成的数据集上进行训练,会显著损害翻译系统的性能。

为了解决这个问题,研究团队开发了几种自动过滤方法来识别和删除低质量的数据源。

但值得一提的是,没有说话内容的片段会被留下,作为语音活动检测的训练数据。

其次,Whisper体系结构是一种简单的端到端方法,具体来说就是Transformer的编码器-解码器格式。

输入音频被分成30秒的片段,再转换成log-Mel谱图,然后传入编码器。

解码器被训练来预测相应的文本标题,并混合特殊标记,指示单一模型执行诸如语言识别、多语言语音转录和英语语音翻译等任务。

除此之外,研究人员还为Whisper设置了5种不同的型号,以下是各模型大致的内存需求和相对速度,使用者可以自行选择。

但需要注意的是,只有“large”型号支持多语言,前4个模型都只支持英语。

不过不需要担心,与其他模型相比,英文语音识别正是Whisper的核心竞争力。

实验结果证明,Whisper在Librispeech test-clean测试的错误率达到2.7%。

虽然这一数值与Wav2vec 2.0一样,但在零样本性能上,Whisper明显更稳健,平均误差减少了55%

甚至零样本Whisper模型还缩小了与人类鲁棒性之间的差距

可以看出,与人类Alec相比,LibriSpeech模型的错误率大约是人类的两倍,而Whisper模型的鲁棒性边界则包括Alec95%的置信区间。

研究团队

Whisper的研究团队来自OpenAI,共同一作有两位:Alec Radford、Jong Wook Kim。

Alec Radford,OpenAI的机器学习研究员,也是indico.io的联合创始人。

Jong Wook Kim,在纽约大学获得了音乐技术专业的博士学位,研究方向包括多模态深度学习和音乐理解,目前是OpenAI的研究人员。

值得一提的是,研究团队指出,虽然目前Whisper还没有实时功能,但它的运行速度和内存大小表明,在这一基础上搭建实时语音识别和翻译功能是可行的。

他们希望Whisper的高精度和易用性,将允许开发人员将语音接口添加到更广泛的应用程序中。

论文和GitHub链接附在文末,感兴趣的小伙伴们可以自取~

论文链接:
https://cdn.openai.com/papers/whisper.pdf

GitHub链接:
https://github.com/openai/whisper#approach

参考链接:
[1]https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
[2]https://techcrunch.com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system/?guccounter
[3]https://news.ycombinator.com/item?id=32927360
[4]https://twitter.com/alecrad
[5]https://jongwook.kim/

点个在看 paper不断!

能听懂口音的开源语音系统来了:OpenAI出品,支持99种语言,英文识别能力直逼人类...相关推荐

  1. 有道智云智能语音服务全面升级 最多可支持44种语言和方言

    原标题:有道智云智能语音服务全面升级 最多可支持44种语言和方言 有道智云·AI开放平台智能语音服务全面升级,支持40多个小语种的语音识别.及翻译!现在开通注册即送50元体验金免费体验!戳一下了解详情 ...

  2. Facebook增强版LASER开源:零样本迁移学习,支持93种语言

    来源| Facebook AI 研究院 译者 | Linstancy 责编 | 琥珀 出品 | AI 科技大本营(ID:rgznai100) [导语]为了加速自然语言处理 (NLP) 在更多语言上实现 ...

  3. 华为商城抢购助手_华为推海外版语音助手Celia:六国首发支持三种语言

    3月26日晚间消息,华为P40系列今日在海外发布,全新的EMUI 10.1也随之亮相.此次华为推出了海外版语音助手Celia,随华为P40系列在英国.西班牙.法国.智利.墨西哥.哥伦比亚六国首发上线. ...

  4. 百度AI全面开放EasyDL开启AI普及化时代;讯飞翻译机2.0发布:支持34种语言;华为开发能读懂人类情绪的AI技术

    百度AI全面开放EasyDL开启AI普及化时代,"小白"也能用AI 百度"燎原计划2018"暨百度AI开发者实战营第二季强势回归,首站北京即放送三大满足各类开发 ...

  5. 免费开源的高精度OCR文本提取,支持 100 多种语言、自动文本定位和脚本检测,几行代码即可实现离线使用(附源码)

    免费开源的高精度OCR文本提取,支持 100 多种语言.自动文本定位和脚本检测,几行代码即可实现离线使用(附源码). 要从图像.照片中提取文本吗?是否刚刚拍了讲义的照片并想将其转换为文本?那么您将需要 ...

  6. 在元宇宙里怎么交朋友?Meta发布跨语种交流语音模型,支持128种语言无障碍对话...

    来源:AI前线 本文约1500字,建议阅读5分钟 本文为你介绍 XLS-R--一套用于各类语音任务的新型自监督模型. 改名 Meta 之后,Facebook 的元宇宙愿景正在一点点实现.这一次,Fac ...

  7. Meta发布支持128种语言的新语音模型:指向元宇宙跨语种交流,可在线试玩

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI Facebook AI(bushi),更准确地说是Meta AI,刚刚发布了自监督语音处理模型XLS-R,共支持128种语言. 这项技术与M ...

  8. 世界最大的多语言语音数据集现已开源!超40万小时,共23种语言

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最近,F ...

  9. Meta 开源早期 AI 翻译工具支持 200 种语言

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) Meta 创建了一个能够翻译 200 种不同语言的人工智能模型,包括许多目前商业工具不支持的语言.Meta 正在开源该项目,希望 ...

最新文章

  1. dubbo 部分 配置的关系-dubbo github 官方案例
  2. 虚拟服务器设置upnp,TP-Link路由器如何设置UPNP开启【设置步骤】
  3. CodeBlacks程序调试的那些事
  4. 天翼云从业认证(1.4)计算机网络
  5. The J2EE Architect's Handbook
  6. 直接设置Activity的背景颜色
  7. Java函数式编程和Lambda表达式
  8. CentOS 6使用rpm方式安装JDK8
  9. toj 4601 好老师
  10. 计算机技能测试题九,计算机技能培训后人人过关测试试题九
  11. 【ECharts学习】—实现我的第一个图表
  12. 怎样定义函数,调用函数
  13. 苹果邮箱 android设置字体,苹果6邮件怎么设置qq邮箱怎么设置几号字体
  14. tl494cn逆变器电路图_TL494CN逆变器
  15. 考研基础高等数学笔记
  16. 三种计算机控制系统是,计算机控制系统3
  17. 下载谷歌浏览器官方正式(稳定)版以及历史各种版本
  18. 春招面经总结(获携程Offer)
  19. 电池包IPX9K、IPX9测试目的
  20. 知道了蚂蚁森林这个“秘密”,我坐不住了!!

热门文章

  1. 论文-《Visual Question Answering as Reading Comprehension Hui》笔记
  2. windowbuilder怎么加图片_只是加点水果,这些苏打特饮怎么这么美!
  3. 今日事今日毕,今生定当不负悔
  4. 知道这10个软件,策划再复杂的活动都不怕
  5. 抗原试剂进口报关及清关手续跟操作流程「报关指南」
  6. 【BZOJ1001】狼抓兔子题解
  7. 程序员的生活需要仪式感
  8. google drive详细使用攻略
  9. golang中的面向对象编程之一
  10. 原来有这么多清北毕业生去了华为!