一、论文信息

论文名称:Robust Speech Recognition via Large-Scale Weak Supervision

代码地址:https://github.com/openai/whisper

官方博客:https://openai.com/blog/whisper

作者团队:OpenAI

二、介绍

Whisper是一个通用语音识别模型。它是在各种音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。人工智能公司 OpenAI 开源了Whisper 自动语音识别系统,Open AI 强调 Whisper 的语音识别能力已达到人类水准。

Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言,其中11万小时覆盖96 种语言,12万小时的语言标号为英语,用多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。

三、方法

Whisper体系结构是一种简单的端到端方法,实现为编码器-解码器Transformer。输入音频被分成30秒的片段,转换成log-Mel谱图,然后传入编码器。解码器被训练来预测相应的文本标题,并混合特殊标记,指示单一模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

数据预处理

用了off-the-shelf结构,所有的音频从采样到16000Hz,再把它变成一个80通道的Log Scale Mel Spectrogram。将长为30s的语音信号变为3000个数据点,每个数据点上它的维度是80,最后将所有数值都放在-1和+1之间,它的均值大概也是0。

模型架构

  1. 序列到序列学习

模型输入长度(log-mel)为3000,特征维度为80。

2. 多任务

  • 英文转录:输入一段英文语音转录为英文文字;

  • 任何语言语音到英文转录;

  • 任何语言语音转录成对应语言;

  • 输入一段背景音乐,判断无人说话。

3. 多任务流程

4.  模型细节:不同层不同宽度不同头的个数。

四、实验

1. zero-shot:在很多其他语音数据集上评估whisper性能。

2. 评估准则:WER 词错误率

假设要预测N个字母,错误率为预测的字母和真实的字母之间需要进行多少次修改。S为替换次数,D是多少次删除,I是多少次插入,如果全部正确则为0,C是正确词的个数。

3. 性能

  • X轴为在比较干净的语音数据集LibriSpeech的词错误率,Y轴为在别的数据集上的错误率,完美的模型一般表现为在两种数据集上错误率相似,但实际相差较远。

  • 多语言语音识别性能

  • Whisper模型在各个语言上的词错误率

X轴,每个语言在训练集中有多少小时的训练数据,Y轴对应的词错误率,当数据集成倍增长时,词错误率也是按比例下降,假设想把错误率往下降一倍,那么训练数据集需要增加16倍。在英语上的词错误率为5%,跟人有点近似了。但在中文、韩语、阿拉伯语上表现不那么明显,原因可能是和别的语言发音很不一样,且在Tokenizer上的设计不那么适合中文等语言。

  • 翻译性能

上图右,X轴为所有语言翻译的小时数,其中韩语较多,几万小时,但BLEU比中位线要差一点。

  • 语言识别性能:性能一般

  • 模型变大时在数据集上的效果

p1英语语音识别,从最小的38M到最大时,可以看到WER在下降。

p2多语言语音识别,整体也在下降。

p3翻译,效果也在上升。

p4语言识别,随着模型增大,精度有所提升。

论文阅读-Whisper语音识别(OpenAI)相关推荐

  1. 论文阅读:Deep Learning in Mobile and Wireless Networking:A Survey

    论文阅读:Deep Learning in Mobile and Wireless Networking:A Survey 从背景介绍到未来挑战,一文综述移动和无线网络深度学习研究 近来移动通信和 5 ...

  2. 深度学习论文阅读路线图

    https://www.toutiao.com/a6703859415763649031/ 作者:floodsun编译:ronghuaiyang 这是作者一年前整理的东西,有些最新的论文没有包含进去, ...

  3. 【独家】深度学习论文阅读路线图

    如果你是深度学习领域的一名新手,可能会遇到的第一个问题是"应该从哪篇论文开始读起呢?" 这里给出了深度学习论文阅读路线图! 路线图按照下面四个准则构建而成: 从提纲到细节 从经典到 ...

  4. [论文阅读] (06) 万字详解什么是生成对抗网络GAN?经典论文及案例普及

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  5. [论文阅读] (04) 人工智能真的安全吗?浙大团队外滩大会分享AI对抗样本技术

    外滩大会 AI安全-智能时代的攻守道 Deep Learning Security: From the NLP Perspective 浙江大学 <秀璋带你读论文>系列主要是督促自己阅读优 ...

  6. 论文阅读丨神经清洁: 神经网络中的后门攻击识别与缓解

    摘要:本文将带你了解深度神经网络的后门知识,作者提出了一种可靠且可推广的DNN后门攻击检测和缓解系统,这是了解对抗样本和神经网络后门攻击的深度解读. 本文分享自华为云社区<[论文阅读] (02) ...

  7. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey

    文章目录 一.介绍 二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机 三.NLP领域的核心概念 ...

  8. [论文阅读] (13)英文论文模型设计(Model Design)如何撰写及精句摘抄——以入侵检测系统(IDS)为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  9. 论文阅读笔记——VulDeePecker: A Deep Learning-Based System for Vulnerability Detection

    本论文相关内容 论文下载地址--Engineering Village 论文中文翻译--VulDeePecker: A Deep Learning-Based System for Vulnerabi ...

  10. [论文阅读:姿态识别Transformer] POET: End-to-End Trainable Multi-Instance Pose Estimation with Transformers

    [论文阅读:姿态识别&Transformer] 2103 POET: End-to-End Trainable Multi-Instance Pose Estimation with Tran ...

最新文章

  1. 【网络知识】4. linux抓包工具tcpdump的使用
  2. python爬取视频自动播放_如何在IPython笔记本上自动播放声音?
  3. python编程是啥-什么是Python编程课程
  4. VMware虚拟机找不到USB设备该怎么办?
  5. SpringApplication run方法第四步解析(三)[(未完结,暂搁置)]
  6. AD20软件安装详细教程
  7. 有限元法 matlab,MATLAB有限元分析与应用.pdf
  8. Android 7.0以上版本 HTTPS 抓包解决方法
  9. 几个简单规则改进你的SEO效果
  10. 常见的 NoSQL 数据库有哪些?一篇详尽(图表展示)
  11. 金蝶K3 SQL报表系列-BOM成本汇总表
  12. java获取当前日,当前月的开始时间和结束时间,当前季度的开始时间和结束时间
  13. 引力产生的原因是什么
  14. 清华大学立功了!“破冰”芯片核心技术
  15. 如何学习爬虫技术(问答版)
  16. 2022win7cf烟雾头最新调法
  17. 杰理之MIC 省电 容方案 微信语音 或通话 时前面 几秒钟有 哒哒声【篇】
  18. vc使用hiredis的几个填坑动作
  19. 181.Smallest Range I
  20. RFS的web自动化验收测试——第8讲 继续未完的数据分离

热门文章

  1. Python脚本系列:拳皇13一键出招以及连段实现!谁打得过我?
  2. IE中对于本地地址不使用代理服务器的选项
  3. 【转】安装虚拟机VMware及在VMware下安装Ghost XP系统图文教程(附PQ分区及VMwa
  4. 应有尽有,Python 程序员需要掌握的机器学习“四大名著”发布啦
  5. 594万奖金池!行人重识别、遥感图像语义分割等赛事全面启动!2020 年全国人工智能大赛来了...
  6. pytorch BCEWithLogitsLoss pos_weight参数解疑
  7. C语言模拟实现虚拟存储管理(请求分页存储管理)
  8. Windows 2008 R2 终端服务器授权安装配置
  9. db_recovery_file_dest与log_archive_dest、log_archive_dest_n
  10. Stellarium0.9.0新功能