LAS是一个做语音识别的经典seq2seq模型,主要分为三个部分Listen、Attention、Spell

Listen

Listen部分就是一个encoder。
输入声学特征向量,提取信息、消除噪声,输出向量。

encoder可以是RNN

也可以是CNN。比较常见的是先用CNN,再用RNN

还有一种趋势是使用Self-Attention

Down Sampling减少取样

由于声音的采集通常都是很大数据量的。比如采样率为16KHz需要在一秒钟采集16000个采样点,所以通常需要对声音的特征向量进行Down Sampling,减少样本数。

对于RNN,
方法一是通过使用两层RNN,4个向量通过第一层RNN输出4个向量,通过第二个RNN输出2个向量
方法二是把通过RNN输出的四个向量中,每隔一个输出向量

对于CNN,使用TDNN的方法,可以认为一段附近的几个特征向量差不多,采取使用第一个和最后一个向量,减少样本参数。

对于Self-Attention,计算当前向量和所有向量(1秒16K)计算量太大,只计算一个范围内的注意力。

Attention

我们可以直接编码解码之后直接输出,但是我们当前的编码解码不仅限于这一个编码向量,还取决于周围的编码向量,所以要做attention。

注意力机制如下图所示。 z z z是待训练的向量,初始时随机初始化, z z z与每个 h h h做match得到注意力分数 α α α。
match的方法有两种,一种是Dot-product,另一种是Addictive。


做完match之后,每个 h h h的注意力分数 α α α做softmax,然后对应比例的h相乘相加,得到向量 c c c, c 0 c^{0} c0作为decoder(Spell)的输入。

Spell

c 0 c^{0} c0作为decoder的输入
随机初始化的 z 0 z^{0} z0经过训练之后得到 z 1 z^{1} z1, z 1 z^{1} z1作为RNN的隐状态输入
通过RNN,输出|V|维向量经过Softmax,输出最大概率的token。

z 1 z^{1} z1作为待训练的向量,与每个 h h h做attention,得到 c 1 c^{1} c1作为输入
把得到的Token加入RNN网络, z 1 z^{1} z1训练后得到的 z 2 z^{2} z2作为隐状态,训练得到下一个Token

Listen、Attention、Spell模型相关推荐

  1. 添加了Packed padded sequence和mask机制的Seq2Seq(Attention)模型

    文章目录 Introduction 数据预处理 搭建模型 Encoder Attention Decoder Seq2Seq 训练Seq2Seq模型 推断 BLEU 完整代码 Introduction ...

  2. Tensorflow 自动文摘: 基于Seq2Seq+Attention模型的Textsum模型

    Github下载完整代码 https://github.com/rockingdingo/deepnlp/tree/master/deepnlp/textsum 简介 这篇文章中我们将基于Tensor ...

  3. Seq2Seq模型及Attention机制

    Seq2Seq模型及Attention机制 Seq2Seq模型 Encoder部分 Decoder部分 seq2seq模型举例 LSTM简单介绍 基于CNN的seq2seq Transformer A ...

  4. Paper:Transformer模型起源—2017年的Google机器翻译团队—《Transformer:Attention Is All You Need》翻译并解读

    Paper:Transformer模型起源-2017年的Google机器翻译团队-<Transformer:Attention Is All You Need>翻译并解读 目录 <T ...

  5. Transformer:《Attention is all you need》(论文精读/原理解析/模型架构解读/源码解析/相关知识点解析/相关资源提供)

    本文解读Transformer较为详细,是一篇两万字的长文,如果想看简短版的,请参考这篇文章 目录 1 相关背景 1.1 Transformer 1.2<Attention is all you ...

  6. 【TransformerCNNTiDE】从CNN到ViT,再从ViT到TiDE,回顾近十年顶刊和会议发表的关于Attention自注意力、Conv卷积机制以及最新诞生的TiDE模型的发展历程

    目录 一.CV中的Transformer介绍 二.Attention机制增强CNN 前言: 1. Attention Augmented Convolutional Networks(ICCV 201 ...

  7. 李宏毅NLP学习笔记,NLP模型LAS。

    转自:http://t.zoukankan.com/yanqiang-p-13257228.html 语音识别模型: 语音识别模型主要分为两种,一种是基于seq2seq的,一种是基于HMM的. seq ...

  8. 利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型

    作者 | Comet 译者 | 天道酬勤,责编 | Carol 出品 | AI 科技大本营(ID:rgznai100) 这篇文章是由AssemblyAI的机器学习研究工程师Michael Nguyen ...

  9. seq2seq模型_带你读论文 | 端到端语音识别模型

    编者按:过去十年,得益于人工智能与机器学习的突破.算法与硬/软件能力的进步,以及拥有既多样又大量的语音数据库,用以训练多参数的.大规模的语音识别与合成模型,使得语音处理技术获得飞跃性进展. 随着端到端 ...

最新文章

  1. python编程有哪些-学习python编程,有哪些不错的软件?
  2. python画图完整代码-Python科学画图代码分享
  3. 服务器和客户端之间的变量交互
  4. View的绘制-draw流程详解
  5. git 分支的创建和切换
  6. c++命令行解析库cmdline使用
  7. 解决webstorm本地IP访问页面出错的问题,webstorm支持IP访问
  8. ListView+CheckBox两种解决方式及原因分析
  9. linux系统rc路由配置_Linux下路由配置梳理
  10. pageoffice如何离线申请_pageoffice常见问题
  11. 2021SAAE上海第七届教育装备展览会
  12. 内网安全-域横向网络传输应用层隧道技术
  13. 插上耳机没声音 程序包ID:Audioplaybackdiagnostic 错误代码:0x80070002 源:引擎 上下文:升级
  14. 电信保温杯笔记——《统计学习方法(第二版)——李航》第16章 主成分分析
  15. 阿里的Easyexcel读取Excel文件(最新版本)
  16. html 点击加入qq群,怎么样加入QQ群?加入QQ群两种方式介绍
  17. 基于P2P万信金融--day01 分布式事务
  18. 矛盾的俗语,成大事者不拘小节与一屋不扫,何以扫天下的辨析?
  19. 函数在任意三角区域二重积分的计算
  20. 2021年R1快开门式压力容器操作考试及R1快开门式压力容器操作考试题

热门文章

  1. PHP代码审计demo之熊海cms
  2. Rrd 文档 总结(二) 介绍 JRobin
  3. 254work 9月总结复盘:师傅领进门 修行在个人
  4. 我自己常用的linux RPM安装包下载地址
  5. Modelsim(1)
  6. mysql点哪个是确定指令_mysql命令大全
  7. mysql like having_like模糊查询、HAVING和wehere
  8. 【源码】GPUBench version 1.11.0.0——在MATLAB中使用标准数值基准比较GPU性能
  9. 使用AlertDialog弹窗实现相机拍照或者从图库选取图片显示
  10. ArcEngine开发:创建shp数据文件,并存入Geometry类型的要素到shp数据文件