近日,Facebook 人工智能研究院 ( FAIR ) 宣布开源首个全卷积语音识别工具包 wav2letter++。系统基于全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的 2 倍多。他们在博客中对此次开源进行了详细介绍。

由于端到端语音识别技术能够轻易扩展至多种语言,同时能在多变的环境下保证识别质量,因此被普遍认为是一种高效且稳定的语音识别技术。虽说递归卷积神经网络在处理具有远程依赖性的建模任务上很占优势,如语言建模、机器翻译和语音合成等,然而在端到端语音识别任务上,循环架构才是业内的主流。

有鉴于此,Facebook 人工智能研究院 (FAIR) 的语音小组上周推出首个全卷积语音识别系统,该系统完全由卷积层组成,取消了特征提取步骤,仅凭端到端训练对音频波形中的转录文字进行预测,再通过外部卷积语言模型对文字进行解码。随后 Facebook 宣布开源 wav2letter ++——这种高性能框架的出现,让端到端语音识别技术得以实现快速迭代,为技术将来的优化工作和模型调优打下夯实的基础。

与 wav2letter++ 一同宣布开源的,还有机器学习库 Flashlight。Flashlight 是建立在 C++基础之上的机器学习库,使用了 ArrayFire 张量库,并以 C++进行实时编译,目标是最大化 CPU 与 GPU 后端的效率和规模,而 wave2letter ++工具包建立在 Flashlight 基础上,同样使用 C++进行编写,以 ArrayFire 作为张量库。

这里着重介绍一下 ArrayFire,它可以在 CUDA GPU 和 CPU 支持的多种后端上被执行,支持多种音频文件格式(如 wav、flac 等),此外还支持多种功能类型,其中包括原始音频、线性缩放功率谱、log 梅尔谱 (MFSC) 和 MFCCs 等。

Github 开源地址:

https://github.com/facebookresearch/wav2letter/

在 Facebook 对外发布论文中,wav2letter++被拿来与其他主流开源语音识别系统进行对比,发现 wav2letter++训练语音识别端到端神经网络速度是其他框架的 2 倍还多。其使用了 1 亿个参数的模型测试,使用从 1~64 个 GPU,且训练时间是线性变化的。

图片来源:Facebook

上面为系统的网络结构图,主要由 4 个部分组成:

可学习前端(Learnable front end):这部分包含宽度为 2 的卷积(用于模拟预加重流程)和宽度为 25 ms 的复卷积。在计算完平方模数后,由低通滤波器和步长执行抽取任务。最后应用于 log-compression 和 per-channel mean-variance normalization 上。

声学模型:这是一款带有门线性单元(GLU)的卷积神经网络,负责处理可学习前端的输出内容。基于自动分割准则,该模型在字母预测任务上进行训练。

语言模型:该卷积语言模型一共包含 14 个卷积残差块,并将门线性单元作为激活函数,主要用来对集束搜索解码器中语言模型的预备转录内容进行评分。

集束搜索解码器(Beam-search decoder):根据声学模型的输出内容生成词序列。

原文地址:https://www.oschina.net/news/103080/facebook-open-source-wav2letter

Facebook 开源首个全卷积语音识别工具包 wav2letter++相关推荐

  1. 语音识别系统wav2letter++简介

    语音识别系统是深度学习生态中发展最成熟的领域之一.当前这一代的语音识别模型基本都是基于递归神经网络(Recurrent Neural Network)对声学和语言模型进行建模,以及用于知识构建的计算密 ...

  2. 7 Papers Radios | NeurIPS 2020最佳论文;全卷积网络实现E2E目标检测

    机器之心 & ArXiv Weekly Radiostation 参与:杜伟.楚航.罗若天 本周的重要研究包括 NeurIPS 2020最佳论文以及抛弃 Transformer 使用全卷积网络 ...

  3. LIVE 预告 | 旷视王剑锋:全卷积网络,可以实现更好的端到端目标检测吗?

    目标检测是计算机视觉领域的一个基础研究主题,它利用每张图像的预定义类标签来预测边界框.大多数主流检测器使用的是基于锚的标签分配和非极大值抑制(NMS)等手动设计.近来,很多研究者提出方法通过距离感知和 ...

  4. 重磅 | 阿里开源首个 Serverless 开发者平台 Serverless Devs

    Serverless 从概念提出到应用,已经走过了 8 个年头,开发者对 Serverless 的使用热情不断高涨.为帮助开发者实现一键体验多云产品,极速部署 Serverless 项目,10 月 2 ...

  5. 全卷积网络FCN详解

    转载自:  点击打开链接 背景 CNN能够对图片进行分类,可是怎么样才能识别图片中特定部分的物体,在2015年之前还是一个世界难题.神经网络大神Jonathan Long发表了<Fully Co ...

  6. 横向对比5大开源语音识别工具包,CMU Sphinx最佳

    目前开源世界里存在多种不同的语音识别工具包,它们为开发者构建应用提供了很大帮助.这些工具各有哪些优劣?数据科学公司 Silicon Valley Data Science 为我们带来了 5 种流行工具 ...

  7. 资源 | 横向对比5大开源语音识别工具包,CMU Sphinx最佳

    选自svds 作者:Cindi Thompson 机器之心编译 参与:李泽南.Smith目前开源世界里存在多种不同的语音识别工具包,它们为开发者构建应用提供了很大帮助.这些工具各有哪些优劣?数据科学公 ...

  8. 智能音箱大战全面开火,那么问题来了:如何成为一名全栈语音识别工程师?

    文 / 陈孝良 11月16号,百度发布了渡鸦智能音箱和DuerOS开发板SoundPi,至此,国内再一名巨头加入智能音箱大战.迄今为止,国内战场上的巨头有阿里.京东.腾讯.百度.小米.科大讯飞等,国外 ...

  9. FCN全卷积网络模型——高分辨率遥感影像地物识别

    FCN全卷积网络模型--高分辨率遥感影像地物识别 这是一篇操作日记 win10与ubuntu的caffe安装过程独立,只是两次不同系统下的演习,真正实验在ubuntu下完成. 操作空间 win10 1 ...

最新文章

  1. 低门槛彻底理解JavaScript中的深拷贝和浅拷贝
  2. 写小说的人是不是都很聪明呢?
  3. java生成自定义标志、大小的二维码
  4. 五分钟快速过完Verilog HDL基本概念(2)
  5. suse linux 分区表格式
  6. 虚拟机启动时出现operating system not found如何解决?
  7. java连接数据库电商平台_Java数据库中台项目,电商,CMS轻松实现,包含数据库源文件...
  8. 【期末复习】计算机算法设计与分析
  9. git报错:index.lock File exists
  10. webcron 定时任务管理系统
  11. 关于加拿大IC认证变更为ISED认证亚马逊卖家需要注意那些问题?
  12. 云轴ZStack Cloud云建设方案腾讯政务微信应用迁移
  13. 用burpsuite抓包,谷歌 / 火狐浏览器 该怎么设置BurpSuite代理?——超详细教程——CTF Web小白入门基础篇
  14. Polychain重仓的Findora公链,想带领DeFi脱虚向实
  15. 虚拟机VirtualBox安装windows操作系统(图文教程)
  16. 发出警报声的c语言程序,PIC单片机警报声C程序
  17. 【gnuradio 仿真音频数据ASK调制和解调】
  18. 《被讨厌的勇气》- 认真的人生活在当下
  19. 数据压缩4 | TGA文件格式分析
  20. 杭电1276:士兵队列训练问题

热门文章

  1. 海报展示样机模板|给你一个现实的环境
  2. 民航飞行学院计算机学院院长,中国民航飞行学院计算机学院领导及老师到访四川华迪开展教研活动...
  3. 提升KVM异构虚拟机启动效率:透传(pass-through)、DMA映射(VFIO、PCI、IOMMU)、virtio-balloon、异步DMA映射、预处理
  4. SPI总线-串行协议解码
  5. 3GPP realease 5G realease
  6. python八角图形绘制_(Python)从零开始,简单快速学机器仿人视觉Opencv—第四节:OpenCV处理鼠标事件...
  7. python获取列表序号_确定列表中的序列号(Python)
  8. AccessibilityService的具体应用场景
  9. mysql数据库查询的传统句子
  10. 数据可视化的图表实现