端到端语音识别

传统语音识别由多个模块组成,彼此独立训练,但各个子模块的训练目标不一致,容易产生误差积累,使得子模块的最优解并不一定是全局最优解。
针对这一问题,提出了端到端语音识别,直接对等式(1)中的概率P(W|X)进行建模,将输入的语音波形(或特征矢量序列)直接转换成单词、字符序列。
端到端的语音识别将声学模型、语言模型、发音词典等模块容纳至一个系统,通过训练直接优化最终目标,如词错误率(WER)、字错误率(CER),极大地简化了整个建模过程。
目前端到端的语音识别方法主要有:基于 连接时序分类(CTC) 和基于 注意力机制(attention model) 两类方法及其改进方法。
CTC 引入空白符号(blank)解决输入输出序列不等长问题, 最大化所有可能对应的序列概率之和 ,无需考虑语音帧和字符的对齐关系,只需要输入和输出就可以训练。基于CTC的模型结构简单,可读性强,但对发音词典和语言模型的依赖性较强,且需要做 独立性假设。RNN-Transducer模型加入一个语言模型预测网络,并和CTC网络通过一层全连接层得到新的输出,解决了CTC输出需要做条件独立性假设的问题,能够对历史输出和历史语音特征进行信息积累。
基于注意力机制的端到端模型能够自动实现两种语言的不同长度单词序列之间的转换,该模型主要由编码网络、解码网络和注意力子网络组成。编码网络将语音特征序列经过深层神经网络映射成高维特征序列,注意力网络 分配权重系数,解码网络 负责输出预测的概率分布。Listen-Attend-Spell(LAS)模型,真正实现了端到端,所有组件联合训练,也无独立性假设要求,但LAS模型需要对整个输入序列之后进行识别,因此实时性较差。

语音识别的难点与热点

面临的挑战:
1.鲁棒性语音识别
针对复杂环境研究鲁棒语音识别任务面临很大挑战。
研究方向:
(1)在语音识别前端,利用信号处理技术提高信号质量;
(2)寻找新的鲁棒性特征,尽可能消除非目标语音信号的影响;
(3)模型的改进与自适应;
(4)多模态数据融合。
2.低资源语音识别
这是对各种小语种语音识别研究的统称。解决这一问题的基本思路:从主流语言的丰富资源中提取共性,训练出可以公用的模型,在此基础上训练小语种模型。然而,小语种种类繁多,为了单独一种建立识别系统耗费过多资源不划算,因此现在主要研究多语言融合的语音识别系统。
3.语音的模糊性
各种语言中存在的相似发音的词语,不同的讲话者存在不同的发音习惯以及口音、方言等问,难以针对单独的口音构建模型。
针对多口音建模问题,现有的方法一般可分为与口音无关和与口音相关两大类。
目前方法:
(1)通过特定口音模型的集合建立统一的多口音识别模型
(2)通过多任务学习将声学模型和口音识别分类器联合
(3)基于GAN构建预训练网络从声学特征中区分出不变的口音
4.低计算资源
精度高效果好的神经网络模型往往需要大量的计算资源且规模巨大,需要对模型进行压缩及加速。
目前针对深度学习模型采用的压缩方法:网络剪枝、参数量化、知识蒸馏等。
例:
(1)采用网络剪枝的方法构建动态稀疏神经网络,通过动态调整以适应不同资源和能量约束的多种硬件类型的能力
(2)通过量化网络参数减少内存占用并加快计算速度
(3)知识蒸馏能够将复杂模型迁入小模型,已应用于对语音识别系统的语言模型、声学模型和端到端模型等进行压缩

语音识别研究综述——阅读笔记3(端到端语音识别、语音识别的难度与热点)相关推荐

  1. 语音识别研究综述——阅读笔记1

    摘要:语音识别使声音变得"可读", 让计算机能够"听懂"人类的语言并做出反应, 是人工智能实现人机交互的关键技术之一.本文介绍了语音识别的发展历程, 阐述了语音 ...

  2. 语音识别研究综述——阅读笔记4(总结与展望)

    总结 目前主流的语音识别方法大多基于深度神经网络,这些方法大体分为两类: 一类是采用一定的神经网络取代传统语音识别方法中的个别模块,如特征提取.声学模型或语言模型等:另一类是基于神经网络实习端到端的语 ...

  3. 端到端流式语音识别研究综述——语音识别(论文研读)

    端到端流式语音识别研究综述(2022.09) 摘要: 引言: 1 端到端流式语音识别模型 1.1 可直接实现流式识别的端到端模型 1.2 改进后可实现流式识别的端到端模型 1.2.1 基于单调注意力机 ...

  4. 深度学习超分辨率综述阅读笔记(翻译)

    深度学习超分辨率综述阅读笔记(翻译) https://arxiv.org/abs/1902.06068 摘要:图像超分辨率(SR)是计算机视觉中增强图像和视频分辨率的一类重要图像处理技术.近几年来,图 ...

  5. SaliencyReview:显著性检测综述阅读笔记

    typora-root-url: images SaliencyReviews 显著性检测论文综述阅读笔记 Author: wbzhang 2020/3/19 E-mail: wbzhang233@1 ...

  6. 《安检违禁品图像生成与评价网络模型研究》阅读笔记

    <安检违禁品图像生成与评价网络模型研究>阅读笔记 一.绪论 1.存在的问题 2.研究内容 二.安检图像数据集构建与预处理 1. 图像采集(实验室X光机) 2.安检X光图像预处理 3.安检X ...

  7. 《A Survey on Deep Learning Technique for Video Segmentation》视频分割综述阅读笔记(翻译)

    <A Survey on Deep Learning Technique for Video Segmentation>视频分割综述阅读笔记(背景部分翻译) 作者:Wenguan Wang ...

  8. 早期的行人再识别与深度行人再识别研究——行人再识别技术综述阅读笔记

    这是对李幼蛟的一篇行人再识别综述做的学习笔记.新人第一次写博客,很多地方写的不够完善,还请大佬们多多指正! 行人再识别:判断不同摄像头下出现的行人是否属于同一行人[1]. 1.早期的行人再识别 早期的 ...

  9. 经管文本分析 | 金融学文本大数据挖掘方法与研究进展阅读笔记

    姚加权 张锟澎 罗平 <经济学动态>2020年第4期 沈艳 陈赟 黄卓 <经济学(季刊)> 2019年第4期 前言 本文是刊载于<经济学(季刊)>2019年第4期& ...

最新文章

  1. oracle server process,KI视角下的ORACLE SERVER PROCESS进程的活动
  2. 员工提出离职,称害怕猝死,HR却说:先猝死了再说!
  3. Cash Shuffle初次测试成功,BCH隐私研究逐步推进
  4. 8 list切片_P018 python基础:数据类型之列表切片02
  5. 揭秘更加开放的数据库服务:阿里云数据库专属集群
  6. Linux编程 23 shell编程(结构化条件判断 命令if -then , if-then ... elif-then ...else,if test)...
  7. Android之如何解决adb server is out of date,killing...ADB server didn't ACK
  8. SQL Serever学习4
  9. 使用Jenkins搭建持续集成环境的方法(二)
  10. 解决base64解码乱码问题
  11. 电脑提示丢失MSVCP140.dll无法启动此程序怎么办【解决方法】
  12. Ubuntu 18.04及几款应用的安装
  13. 实例检索︱图像的实例搜索(文献、方法描述、商业案例)
  14. cpu win10 安装yolo_yolov5 win10 数据集制作 各种踩坑
  15. 架构设计(7)—如何设计一个架构
  16. Appium基础学习之 | setting、unlock与unicode ime
  17. 『2021语言与智能技术竞赛』-机器阅读理解任务基线系统详解
  18. ORACLE取当天七点半
  19. Python爬取热门城市火车票信息
  20. python运动会报名_【python ** 运算符】**小学第四届田径运动会开幕词

热门文章

  1. Windows 10 修改 Alt+Tab 键 切换 新版 Microsoft Edge 单个标签页/窗口
  2. Vue中常见的性能优化,项目优化/单页面性能优化,Vue中六大优化方案
  3. matlab基础-如何在Matlab绘图中添加x坐标文字标签
  4. PostgreSQL函数——时间函数
  5. 技术新经理如何实现从技术岗到管理岗的转变
  6. java loadlibrary 路径_android loadlibrary 更改libPath 路径,指定路径加载.so
  7. 有没有想过,你为何要设计字体?
  8. 问答系统QA--综述
  9. Linux系统盘制作
  10. 送书 | 《人工智能数学基础与Python机器学习实战》