声学模型共享方法是极低资源小语种语音识别一种解决方案,能够实现不需要任何语音数据的语音识别。本文介绍清华大学语音与音频技术实验室的零资源韩语语音系统,其在不使用任何韩语语音数据的情况下,在Zeroth韩语数据集上的测试CER达到了27.33%。

01 声学模型共享与零资源ASR

小语种语音识别一直是语音领域值得关注的问题之一,几千种小语种普遍面临着训练数据不足、收集训练数据困难等问题,而声学模型共享方法则可以实现不需训练数据的语音识别,从而为这一问题提供了一个方向。这一方法利用语种之间的相似性,直接使用常见语言的声学模型,结合低资源语言的语言模型、发音字典以及两种语言之间的音素映射关系等专家知识,就可以构建较为精准的语音识别系统。

我们将声学模型共享方法扩展到了零资源韩语语音识别上。我们使用Kaldi工具包,利用汉语训练声学模型,根据汉语和韩语两种语言之间的音素相似性设置了两种不同的音素映射方案,并比较了不同方案的优劣。实验结果表明,我们的系统可以在不使用任何韩语训练数据的情况下达到27.33%的CER

02 韩语的声学模型共享

在书写上,韩语是一种表音文字,其书写体系中的符号与音素存在着紧密的对应关系。在发音上,韩语是一种音节语言,一个韩语音节由一个元音(中声),元音前的一个可选的辅音(初声)和元音后的一个可选的辅音(终声)构成。韩语包含19个辅音和21个元音。在韩语中,根据上下文的不同,音素可能被替换、删除或是添加,两个相邻的音素可能会发生合并,因此即使韩语是完全的表音文字,一个句子的字面内容和其发音仍可能存在不同。

为了实现声学模型共享,我们需要建立韩语和汉语之间的音素对应关系。一种方法是将汉语词用韩语音素表示(zh2kr)。这种方法在训练过程中就引入音素对应关系,训练集中的汉语被转写为相近的韩语音素,而得到的模型可以被视为一个用汉语语音学习得到的韩语语音识别模型

汉语音素到韩语音素的对应关系(部分)

另一种方法是将韩语词用汉语音素表示(kr2zh)。这种方法是在声学模型训练完成后引入音素对应关系。通过修改发音词典,将韩语词统一表示为相近的汉语音素,使用汉语正常训练的声学模型就可以用来识别韩语。

韩语音素到汉语音素的对应关系(部分)

03 实验设置与结果

我们使用Aishell1数据集训练汉语声学模型,测试集则选用Zeroth开源韩语数据集的测试集。声学模型结构方面,我们使用了11层TDNN,输入为40维MFCC特征;语言模型方面,我们使用Zeroth训练集文本训练了3-gram语言模型。我们的基线系统是使用Zeroth的90小时韩语数据训练得到的相同结构的TDNN模型。

实验结果表明,尽管与使用充足有标注数据训练的ASR模型仍有较大差距,我们的零资源语音识别模型仍能实现较低的错误率。另外,相比kr2zh方法,zh2kr方法的精度有大幅度的下降。

我们认为,这是由于zh2kr方法需要为汉语中存在而韩语中不存在的音素指定近似的对应关系,这使得模型学习到的韩语音素对应的汉语声学特征与测试集中真正的韩语声学特征的分布有较大差异,这些人工引入的额外的领域漂移影响了最终的识别效果。

不同映射方法与有监督方法的比较。零资源方法能达到较低的CER,而kr2zh方法要优于zh2kr方法

我们的方法将无监督预训练模型应用于零资源语音识别任务,在不使用目标语种的任何语音数据的情况下实现了平均33%的WER。在无训练数据或可获得的训练数据小于10小时的情况下,我们的零资源方法相比有监督方法有较大优势。

作者简介

王皓宇,清华大学电子工程系语音与音频技术实验室研究生二年级学生,主要研究方向为低资源语音识别和预训练模型蒸馏。

基于声学模型共享的零资源韩语识别系统相关推荐

  1. 基于深度学习的高精度家禽猪检测识别系统(PyTorch+Pyside6+YOLOv5模型)

    摘要:基于深度学习的高精度家禽猪检测识别系统可用于日常生活中或野外来检测与定位家禽猪目标,利用深度学习算法可实现图片.视频.摄像头等方式的家禽猪目标检测识别,另外支持结果可视化与图片或视频检测结果的导 ...

  2. 基于深度学习的高精度牙齿健康检测识别系统(PyTorch+Pyside6+YOLOv5模型)

    摘要:基于深度学习的高精度牙齿健康检测识别系统可用于日常生活中检测牙齿健康状况,利用深度学习算法可实现图片.视频.摄像头等方式的牙齿目标检测识别,另外支持结果可视化与图片或视频检测结果的导出.本系统采 ...

  3. MATLAB实现数字识别系统,基于人工神经网络的MATLAB手写数字识别系统

    <基于人工神经网络的MATLAB手写数字识别系统>由会员分享,可在线阅读,更多相关<基于人工神经网络的MATLAB手写数字识别系统(8页珍藏版)>请在人人文库网上搜索. 1.基 ...

  4. 苹果WWDC前瞻之iOS 13更新最受关注;微软发布基于区块链的去中心化身份识别系统;小米成立了新集团质量办公室……...

    关注并标星星CSDN云计算 极客头条:速递.最新.绝对有料.这里有企业新动.这里有业界要闻,打起十二分精神,紧跟fashion你可以的! 每周三次,打卡即read 更快.更全了解泛云圈精彩news g ...

  5. 基于MTCNN和FaceNet的实时人脸检测识别系统

    文章目录 模型介绍 MTCNN FaceNet 基于MTCNN和FaceNet的实时人脸检测识别系统 在LFW数据集上测试 参考文献 GitHub项目地址:https://github.com/Har ...

  6. 基于Pytorch框架的轻量级卷积神经网络垃圾分类识别系统

    今天在查资料的时候在网上看到一篇文章,博主是基于TensorFlow实现的CNN来完成对垃圾分类识别的,想到最近正好在使用Pytorch就想也做一下,就当是项目开发实践了.先看下动态操作效果: 原文在 ...

  7. android智能识别技术,一种基于Android的智能心音听诊与识别系统

    主权项: 1. 一种基于Android的智能心音听诊与识别系统,其特征在于:包含心音采集设备以及Android手机,心音采集硬件设备由驻极体话筒.30Hz到500Hz滤波器.主控制芯片.蓝牙芯片模组. ...

  8. 韩语识别_韩语文字识别_韩语图片识别 - 云+社区 - 腾讯云

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 购买预付费包更加优惠 识别 小时语音不到 元 每月赠送免费额度最大程度降低客户成本 ...

  9. Python基于YOLOv7和CRNN的车牌分割&识别系统(源码&教程)

    1.研究背景 随着科技的进步和社会需求的增长,近年来摄像头逐渐高清化.高帧率化,摄像头作为信息获取设备的载体也不再局限于固定场景.路口.路侧.室内.高位.低位等不同场景下产生了各种对于检测识别的需求, ...

最新文章

  1. Linux下图解minicom安装
  2. Java“拍了拍”你,面试其实没那么难...
  3. SVO: 视觉SLAM中特征点法与直接法结合
  4. 成都2018年GDP超1.5万亿元 比上年增长8.0%
  5. Flask项目常见面试问题
  6. 愉快且卓有成效:培养你与人相处的能力
  7. 可重复锁ReentrantLock原理分析
  8. Spring Aop(九)——基于正则表达式的Pointcut
  9. mysql 碎片率_为什么所有MySQL InnoDB表都碎片化了?
  10. html5在线聊天模板,h5聊天室模板|仿微信聊天室html5
  11. 飞机大战(Java)
  12. c语言小游戏编程弹珠游戏,C/C++知识点之c语言 弹弹球小游戏
  13. 计算机网络技术评估与备选方案,创业学复习提纲
  14. Open Yale course:Listening to Music
  15. 音频芯片CS4344国产替代芯片——DP4344
  16. java.lang.IllegalArgumentException: Not an entity: class
  17. 如何破解excel密码
  18. 51单片机c语言 if 语句,单片机if语句的用法
  19. 太平人寿黄金十年 保险理财要买么?
  20. db2自定义函数能返回几个参数_函数的定义、参数、返回值

热门文章

  1. 游戏开发中常用的设计模式 【game design patterns】
  2. “Internet来宾帐户”的设置的问题
  3. RabbitMQ:镜像队列Mirrored queue
  4. 安全、智慧是 Oppo 快充技术最新的发展方向
  5. windows cmd 添加路由命令
  6. cr全称是什么意思,城域网中的AC、BRAS、SW、SR、CR是什么意思
  7. 几种优秀的屏幕录像软件用法介绍(图)
  8. 为什么要做用户行为分析?
  9. 数字图像相关(Digital Image Correlation, DIC)中的非线性优化方法IC-GN的数值解计算
  10. 香港影评会选出电影史上十大华语片