1. 语音识别的输出类别

1)phoneme:输出为发音,比较简单,因为语音跟发音是一一对应的,但是需要一个词汇表,表示发音跟word的对应。

2)Grapheme:字母或者token

3)word:短语,V会很大

4)morpheme:代表含义的最小单位

5)byte:utf-8,适用于任何语言

2. 输入特征:(具体的处理可以看下图,以MFCC为例子,如果不经过DCT,就是目前用的最普遍的fliter bank output)

3. 那确定了输入以及输出,接下来介绍中间的模型

1)以下的模型都是seq-to-seq模型架构的:

⚠️encoder:

因为语音feature太长了,所以通常要使用down-sampling: 比如下面两个图分别是RNN、CNN和self-attention的模型图,这样输出的hidden就会减少为原来的一半。(这样做还有一个依据,相邻的语音vector其实是比较相近的,因为每次只移动了10ms)

⚠️attention:

其常见计算方式: 直接乘法、加法。在transformer面试时可能会问,为什么选择乘法而不是加法计算相似度:虽然加法计算量小,但是求出来的只是中间结果(矩阵),还要再✖️矩阵才能得到标量。

⚠️decoder:

常见的decoder 方法有:1)greedy decoding(可能找不到最好的)2)beam search方法(保留分数最高的两个)3)我感觉如果是label已知,目前大多数训练用的是teacher forcing。

⚠️损失函数:交叉上损失函数

其中C为样本数量,p是label(one-hot),q是预测的概率。其中q的计算公式(softmax)为:即现扩大差距,在进行归一化。

因为p是one-hot,会使得最终预测的logits向量中目标类别zi的值会趋于无穷大,使得模型向预测正确与错误标签的logit差值无限增大的方向学习,而过大的logit差值会使模型缺乏适应性,对它的预测过于自信,过拟合,所以有时候会使用label smothing(soft “one-hot”)

NLP基础知识之语音识别相关推荐

  1. NLP基础知识(语法语义、LDA、N-gram、词嵌入)

    文章目录 本节课大纲 Hyper-simplified linguistics Term spotting + handling negation, uncertainty ML to expand ...

  2. 语音识别基础知识_语音识别_CTI论坛

    语音辨识基础知识 近 年 来 , 由 于 电 脑 在 软 件 上 的 长 足 进 步 , 类 似 电 视 影 集 霹 雳 游 侠 中 李 麦 克 与 霹 雳 车 伙 计 之 间 能 够 使 用 人 类 ...

  3. NLP基础知识(三)-AI应用篇

    文本间的推理关系,又称为文本蕴含关系 (TextualEntailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中. 简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文 ...

  4. 【NLP基础知识】1.前言及研究方向概述

    目录 1.前言 什么是NLP? 学习课程前的重点申明 如何学? 教材推荐录 读过的很有收获的笔记(research篇) 读过的很有收获的笔记(工程实验篇) 重要模型一览 语言模型 自然语言处理的基本方 ...

  5. NLP汉语自然语言处理入门基础知识介绍

    NLP汉语自然语言处理入门基础知识介绍 自然语言处理定义: 自然语言处理是一门计算机科学.人工智能以及语言学的交叉学科.虽然语言只是人工智能的一部分(人工智能还包括计算机视觉等),但它是非常独特的一部 ...

  6. 语音识别的基础知识与CMUsphinx介绍

    语音识别的基础知识与CMUsphinx介绍 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术. 基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语 ...

  7. Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载

    Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载 Penn Treebank数据集介绍 NLP底层技术之句法分析 NLP常用公开数 ...

  8. 深度学习之语音识别-音频基础知识、声谱图(Spectrogram)

    音频基础知识 声音的三要素 1.音调 人耳对声音高低的感觉称为音调(也叫音频).音调主要与声波的频率有关.声波的频率高,则音调也高.当我们分别敲击一个小鼓和一个大鼓时,会感觉它们所发出的声音不同.小鼓 ...

  9. AI产品经理需了解的技术知识:语音识别技术(1)

    AI产品经理需了解的技术知识:语音识别技术(1) https://blog.csdn.net/zhangbijun1230/article/details/81231921 一.语音识别的发展 20世 ...

最新文章

  1. 角色权限(Role)和系统权限(System)的几个澄清实验
  2. Lazy FP状态还原漏洞公布,大多数Intel的酷睿CPU受其影响
  3. Python 机动车强制报废公告--参数分析与实现
  4. jQuery 属性操作——案例:购物车案例模块
  5. c语言结构体的位操作,C语言之路---结构体、位运算及预处理命令
  6. 查询数据表结构并查出结构的结构信息
  7. MySQL sql99语法—等值连接
  8. 英雄联盟祖安服务器位置,LOL“4区版英雄联盟”:城区有2个,郊区有2个,山区有1个...
  9. 设计事件驱动的微服务
  10. 如何为Docker项目创建持续集成持续部署 (CI-CD)解决方案
  11. 微软官网真的是一个神奇的地方,高清壁纸,直接下载
  12. 最常见的5个导致节点重新启动、驱逐或 CRS 意外重启的问题
  13. 各地特色美食与点菜的艺术
  14. 实现迭代服务器端和客户端
  15. Java常用类和方法重点总结
  16. php登录界面的代码,php登录页面()代码
  17. 持刀男子也地级市小女子背景
  18. nas存储用网线直连服务器,NAS将存储设备通过标准的网络拓扑结构连接,无需服务器直接上网...
  19. 用计算机研究脑电波,可用于计算机硬盘识别及脑电波测量的量子传感器【中国科讯】...
  20. 微博【黄金分析师吕超】--2.16黄金分析

热门文章

  1. 华为笔记本(linux版) 安装华为win10专业版系统教程
  2. 自己创建百度百科老是不通过的原因,怎么才能创建词条成功
  3. 干货!我的科研生涯:从博士到博导
  4. Zeal文档离线下载地址
  5. python开发的游戏手机上玩_Python学习太枯燥?4款编程手游让你边玩边学习!
  6. 十大排序算法详解(一)冒泡排序、选择排序、插入排序、快速排序、希尔排序
  7. 读《微波工程(第三版)》笔记 (11:Smith圆图)(腰斩,就写了一点点)
  8. 计算机论文字号,计算机硕士毕业论文格式(字体+排版要求)
  9. python 中自己写方法 计算向量长度 / 实现向量归一化
  10. Day04_JVM面试题(尚硅谷)