今天我们来看看language model(简称LM)在speech recognition中的应用。
首先来看上图,LM主要可以预测token sequence 的几率,虽然我们的LAS中其实只需要P(Y|X)的数值即可,但在实际操作中我们还是会加上P(Y)的数值,我们知道P(Y|X)需要的都是成对的数据,但是P(Y)非常容易去收集。
我们可以看看,Google的语音训练模型一共使用了12500个小时的声音讯号,而这些基本就有一亿个词汇,相当于100套哈利波特的字数!这也说明数据量会非常的大。而如果知道BERT的话,我们可以知道BERT就可以看作一个非常大的LM,它里面会有30亿个词的样子。
在接下来我们介绍一种N-gram的方法,比如我们收集到了一句话“wreck a nice beach”,要计算它的P(y1,y2,……,yn),如果我们选择用N-gram的方法,那么我们可以选择2-gram,就可以把P(“wreck a nice beach”)拆成P(wreck|START)P(a|wreck)P(nice|a)P(beach|nice),就比较便于我们的计算了,但是N-gram也有它的问题。
如果我们的文本数据库中没有出现一些用法的话我们的模型就会将这些搭配产生的几率设置为0,但这很明显是不对的,因此我们使用一种叫做language model smoothing的东西,来给没有出现过的词汇设置一个很小很小的几率即可。
我们再来介绍Continuous LM,这就是预测模型了,比如我们通过收集数据发现,A,C喜欢第一部凉宫春日的忧郁的同时也很喜欢第二部电磁炮,那么我们看到B很喜欢凉宫春日的忧郁,那么我们就可以给他推荐电磁炮,很有可能这也是他很喜欢的番。
我们由上图可以看出我们设置h1,h2……和v1,v2……然后可以将每一种搭配用n以及下边I,j来表示,比如n12=v1∙h2,然后呢,我们只需要分析loss函数,就是上图中L的那个式子。
如果我们发现两列的h向量非常的相似,那么我们就可以使用上文提到的language model smoothing来根据一列的来预测另一列的。
上图就是具体的模式的。
下面我们再来介绍NN -based LM,它就可以来预测下一个词汇是什么通过自己的数据库。
上图也说明了该过程,每一个单词都有一个1-of-N encoding,然后通过Neural Network,就可以得到P(next word is “****”)的几率了。
其实上述操作在03年就有科学家已经尝试过了,但是一直没有被很重视。
上面都是一些科学家的研究成果,人们最后发现其实LM并不一定需要极其复杂的模型也可以有很好的效果,所以现在的研究方向基本都不会设置一个非常复杂的模型。
下面是最后一个问题,怎样使用LM来改善LAS呢?我们有3中方法,根据什么时候来整合数据,以及如何整合数据可以分成3类。下面我们看图来分析这三类。

LM在speech recognition中的应用相关推荐

  1. 语音识别 Speech recognition 中的 CTC cost,CTC损失函数(学习心得)

    seq2seq 模型在语音识别方面的应用让人激动! 什么是语音识别问题呢? 气压随着时间推移不断变化,产生了音频 人的耳朵可以衡量不同频率和强度的声波 输入整个原始的音频片段 raw audio cl ...

  2. JS中的语音识别——Speech Recognition API

    JS中的语音识别--Speech Recognition API 简介 HTML5中和Web Speech相关的API实际上有两类,一类是"语音识别(Speech Recognition)& ...

  3. 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  4. 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  5. Deep Audio-Visual Speech Recognition翻译

    原文链接:https://arxiv.org/pdf/1809.02108.pdf 这是一篇较为系统的介绍音视频融合的语音识别文章.翻译参考博客园一篇翻译,进行了大量修正和增补. 摘要 本文的目的是基 ...

  6. (ICASSP 19)Streaming End-to-end Speech Recognition for Mobile Devices

    会议:ICASSP 2019 论文:Streaming End-to-end Speech Recognition for Mobile Devices 作者:Yanzhang He, Tara N. ...

  7. Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》

    本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...

  8. 语音识别系列1:语音识别Speech recognition综述

    名词约定: 语声识别----- VOICE RECOGNITION 语音识别-----SPEECH RECOGNITION 1 什么是语声识别VOICE RECOGNITION? 语音或说话者识别是程 ...

  9. “Imperceptible,Robust,and Targeted Adversaria lExamples for Automatic Speech Recognition”

    背景: 1.对抗样本大多用于图像领域: 2.目前用于音频的对抗样本有两个缺点: (1)容易被人类察觉 改进方法:频率掩蔽.通过使用另外一种充当"掩蔽器"的信号对对抗性样本进行掩护 ...

最新文章

  1. JS 伸缩效果代码 (上下伸缩)
  2. 通信upf是什么意思_5G给边缘计算带来了什么?
  3. optee os中共享内存的类型
  4. umask 和 新建文件、目录的默认权限
  5. ubuntu 安装过程所需软件
  6. MIT机器人闭上眼睛,靠触觉也爬得上凶险的楼梯 | 施工未完成
  7. mysql版本引起的驱动问题
  8. 【c++】【多线程】单例模式及其性能
  9. 调研助力4S店,解码困境谜团
  10. 分布式事务解决方案之2PC(两阶段提交)介绍
  11. 宁波实训day1: java web开发常用工具安装
  12. A better Tooltip with jQuery
  13. (一)改掉这些坏习惯,还怕写不出健壮的代码?
  14. MooTools and Sizzle
  15. 福建专科计算机学校排名2015,2015福建专科学校排名及排行榜
  16. cron 五秒钟_五秒钟规则-它在国际上适用吗?
  17. 艾宾浩斯遗忘曲线PHP,【干货】~~~艾宾浩斯遗忘曲线~~~
  18. html5第五章简答题4,2020自考思修考试简答题重点归纳:第五章
  19. 电路返回端,接地,大地,等势体,静电场,回路,电能
  20. 使用Realsense测试aruco_ros包

热门文章

  1. mysql1044错误代码_mysql出现1044错误怎么办
  2. 上万条个性签名与个性网名ACCESS数据库
  3. Xcode10 报错 target xxx(project 'xxx')has copy command from ‘xxx/xxx’ to ''xxx/xxx.app/COPYING'解决方案
  4. 对渗透测试工程师来说,学历重要嘛?
  5. 使用Python转换PDF/Word/Html/PPT
  6. 爬取国内创业公司、投资机构、独角兽公司信息
  7. html中aspx的cs文件是css吗,在asp.net 中怎么在.aspx.cs的文件里写代码来改变页面的颜色...
  8. 企业为什么需要B2B订货系统
  9. C语言学习之volatile
  10. 软考-信息系统项目管理师-项目风险管理