自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用

RDTE OF CAI FOR THE DEAF&DUMB CHILDREN BASED ON ASR

 

一、             课题来源及研究的目的和意义;

据有关机构抽样调查,我国有残疾人约6000万,其中聋哑人约有1300万,18岁以下应受教育的聋哑人约达100万,这是一个庞大的弱势群体。他们在学习、工作和生活上有许多难于想象的艰辛和障碍,在成长和发展的道路上要比常人付出多倍的努力。聋哑儿童的教育是一项充满爱心、充满社会主义人道精神的光辉事业。也是我们整个社会义不容辞的责任。

欧、美、香港等一些经济发达国家和地区聋教育起步很早、水平很高。在传统的教学方法、教学手段、仪器配备等方面我国与他们差距较大。在现阶段,国内外聋教育、康复机构较注重专用设备的研究和配备,而在现代化教学技术的应用,尤其在网络、计算机、自动语音识别技术等最新科技成果应用方面,我国与国外尚存在着一定的差距,基本上处于起步阶段。事实上,现代信息以及其他科技、医学等领域的新理论、新技术和新设备应用到聋人康复、教育等方面后,必将使世界聋教育的观念发生重大改变,从而也给聋校的教育改革带来巨大的影响,我国的聋教育必须抓住机遇,深入进行改革和创新,努力提高学校的教育质量,跟上时代的步伐。

在全世界聋哑儿童的教育领域里,从现代教育技术的应用而言,我国与国外的差距不大,这是我国聋教育事业赶超世界水平的难得机遇。本课题率先把现代信息技术、现代教育技术与聋教育的特殊需求相结合,通过将信息技术及软件开发成果应用于聋教育,并对实施对象、实施方法及效果进行研究、对比,总结出符合中国国情的现代教育技术在聋哑儿童教育领域的实施经验。

本课题旨在利用现代教育技术和手段,基于自动语音识别技术(ASR),在聋人教育的技术层面上,进行研究、改革、实践,注重培养聋哑儿童学习的兴趣,使其掌握收集、分析和处理信息的能力,掌握自学和终身学习的现代化手段,提高自身素质和适应社会生活的能力,使其能以平等的地位和均等的机会参与社会生活,共享社会物质文化成果。

二、             国内外在该方向的研究现状及分析;

聋哑人语音训练的研究国外始于六十年代中期,根据反馈途径的不同,大致可以分为两类:利用聋哑人的残存听力借助助听器听取自身发音已纠正发音的听觉反馈训练系统和通过观察CRT上根据自身发音经处理后所获得的特征参数来纠正发音的视觉反馈训练系统。前者造价低,但效果较差。对重听、重度耳聋、全聋的患者效果更差或完全无效。后者由于通过视觉反馈,几乎适用于一切聋哑人,训练效果也较好。在早期研制时视觉反馈系统成分较高,随着计算机和大规模集成电路技术的发展,尤其是语音专用芯片和单片机的出现,成本已大大降低。

目前,国外已经有多种视觉辅助语音训练系统的报道。这些系统基本上都是将受训者所发语音进行处理后,提取语音的特征(例如:强度、持续时间、频谱、基频、共振峰等),与标准发音的特征同时显示在CRT上,让受训者对自己的发音与标准音进行比较,逐步纠正自己的发音。很遗憾,这种系统所显示的信息对一般的受训者来说太转业了,不易为他们,尤其是聋哑儿童所理解,因此影响了训练效果。这是这类系统的最大缺点。

至于本课题的重点,自动语音识别研究,开始于五十年代初,当时电子信号频谱分析仪器开始被用于从语音信号中识别简单、少量的音节和音素。随着计算机技术的飞速发展,进入九十年代后,语音识别的研究进一步升温,除了连续语音听写机之外,还出现了诸多实用化的研究方向。IBM公司率先推出的ViaVoice标志着大词汇量、非特定人、连续语音识别技术正趋于成熟。目前,市场上还有很多比较成熟的语音ASR产品,而且他们大多数都支持二次开发,如微软的Speech Application SDK(SASDK)、SUN公司倡导的JavaSpeechAPI、IBM的Dutty++等。他们大部分能识别英语、日语和中文等不同国家的语言,Dutty++甚至能够识别某些地区的方言,如广东的方言-粤语。从整个语音识别研究的发展前景上看,语音识别系统的鲁棒性(Robust)将是未来几年的研究重点之一。因为这是语音识别系统由实验转为实用过程中的一个最为迫切最关键的问题。而针对聋童的自动语音识别系统,将是一个不可忽视的研究重点。

我国的语音识别研究起步较晚,但由于汉语语音识别的重要性日益突出,最近十年的发展十分迅速。所以相应从九十年代开始的自动语音识别的研究,我国基本可以和国外同步。目前,国内从事这方面研究机构主要有:清华大学、中国科学院声学研究所、中国科学院自动化研究所,香港大学、中国科学技术大学、国防科技大学、北京邮电大学等等。

三、             主要研究内容;

ASR,英文的全称是Automated Speech Recognition,即自动语音识别技术,它是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等学科紧密相连。而针对聋童教育的ASR,也将运用到包含教育学、教育技术学在内的众多学科。

本课题基于语音识别技术,即将受训者所发语音经处理后,计算与标准语音及邻近语音的发音近似率,并在CRT上显示其结果,以指导受训者的发音逐步向标准语音靠拢。该系统显示的是与标准语音及其他类似音的发音近似率,并辅以发音的口型图显示,对受训者来说,显示信息比较直观,训练效果好。

具体而言,本课题重点研究开发适合聋哑儿童计算机辅助教学中应用的自动语音识别系统,即小(特定)词汇量、非特定聋童、连续自适应语音识别系统,并且提供方便前台(计算机辅助教学平台)调用的接口。

四、             研究方案及进度安排,预期达到的目标;

    拟采取的研究方法和技术路线(包括研究工作的总体安排、步骤和进度等):

本课题以Java语言为基础,结合自动语音识别技术的算法原理。

采取以下方式:

阶段一:分析阶段,研究诸多已有学术成果,确定具体的算法

2005年1月~2005年2月

阶段二:设计阶段,设计出流程图。

2005年2月~2005年3月

阶段三:开发程序,按照设计阶段流程,编码。

2005年3月~2005年4月

阶段四:测试维护程序,按照实际情况,进行实用测试。

2005年4月~2005年5月

阶段五:实现产品投入,完成毕业设计任务。

其中1到3阶段并不是明确界定的,进行螺旋式开发

研究的阶段成果及最终成果:

阶段性成果:

至2005年1月,提交可行性调研报告;

至2005年3月,完成流程图的设计;

至2005年4月,编码完成;

至2005年5月,软件测试完成,提交最终的科研成果。

 

五、             为完成课题已具备和所需的条件和经费;

1.  已经具备的条件:ASR的理论研究成果、相关JSAPI文档等

2.  所需条件:开发聋童计算机辅助教学平台

3.  经费问题:在实际开发中,考虑到版权问题,可能需要购买一些相关软件,或者咨询费等。

 

六、             预计研究过程中可能遇到的困难和问题以及解决的措施;

1.  理论

问题:由于现在语音识别的理论相当成熟,但涉及的学科知识广泛,故本人在某些方面不能及时地解决

解决措施:咨询相关专家或者查阅相关资料

2.  技术

问题:现在比较成熟开发语言采用的是C/C++等,而本课题采用的是Java,可能存在参考资料少,开发困难

解决措施:使用并完善已经发布的一系列JavaSpeechAPI

七、             主要参考文献。

[1] 陈汝琛等 基于语音识别技术的聋哑人视觉辅导语音训练系统 中国生物医学工程学报 1996.12

[2] 李建民等 基于汉语语音特点的大词表语音识别系统的研究 计算机学报 1992.5

[3] 郝杰 基于经典隐马尔可夫模型的汉语连续语音识别系统 电子与信息学报 2002.7

[4] 王昱 语音识别自适应技术的研究与实现 硕士学位论文 2000.5

[5] 雷静 语音识别技术的研究及基本实现 硕士学位论文 2002.3.1

[6] 陈荔龙 连续语音识别搜索算法的研究与应用 硕士学位论文 2002.3.1

[7] 王志强 基于GMM的声音信号分类器研究 硕士学位论文 2003.6.30

[8] 曹枝墙 自动语音应答系统的设计与实现 硕士学位论文 2004.2.1

[9] 王越 基于HMM模型的嵌入式语音识别软件研究 硕士学位论文 2003.3.1

[10]张军 抗噪声语音识别技术的研究 博士学位论文 2003.5.1

[11]王宁 基于音素的特定人大词汇量汉语语音识别算法研究硕士学位论文 2002.2.1

[12]盛青 语音自动识别技术(ASR)及其软件实时实现 硕士学位论文 2001.3.1

[13]Sun公司 Java speech API programmer’s guide 开发指南 1998.10.26

自动语音识别技术(ASR)在聋哑儿童计算机辅助教学中的开发与应用相关推荐

  1. ASR自动语音识别技术

    自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术.语音识别是一个多学科交叉的领域,它与声学.语音学.语言学.数字信号处理理论.信息论.计算机 ...

  2. 【语音识别】自动语音识别(ASR)研究综述

    自动语音识别(ASR)研究综述 Note: 正文内容绝大部分取自 语音识别研究综述 WeNet的部署参考该Blog WeNet平台搭建 文章目录 自动语音识别(ASR)研究综述 零.参考资料 1.参考 ...

  3. 对于谷歌应用传统的自动语音识别(ASR)系统的解析

    目前,谷歌的各种语音搜索应用还在使用传统的自动语音识别(ASR)系统,它包括一个包括声学模型(AM ).一个发音模型(PM)和一个语言模型(LM),它们都是彼此独立训练的,而且需要研究人员在不同数据集 ...

  4. 计算机虚拟仿真专业,虚拟仿真技术在计算机专业网络基础课程教学中的应用

    虚拟仿真技术在计算机专业网络基础课程教学中的应用 [摘要]本文以新疆石河子职业技术学院计算机专业网络基础课程的教学改革为切入点,以怎样改革现有的网络基础课程教学.以提升学生的学习与应用能力为根本目标, ...

  5. 自动语音识别(ASR)研究综述

    自动语音识别ASR研究综述 一.语言识别基础知识 从语音系统识别构成来讲,一套完整的语音识别系统包括:预处理.特征提取.声学模型.语言模型.以及搜索算法等模块,具体结构示意图如下所示: 特征提取(MF ...

  6. 自动语音识别(ASR)自监督方法研究综述

    ©作者 | 蔡杰 单位 | 北京大学硕士生 研究方向 |QA 语音 AI 作为人工智能的应用技术之一,近年来正逐渐从实验室研究,越来越多地走向实际应用和价值创造的新阶段.其中的 ASR(Automat ...

  7. 用python直接调用asr技术_语音识别技术ASR(一)基本概念

    注:本文内容主要来源自台大李宏毅老师的Deep Learning for Human Language Processing系列课程 一.语音识别的基本过程 语音识别的输入一般是时域的语音信号,数学上 ...

  8. 自动语音识别(ASR):研究综述【传统语音识别:基于贝叶斯公式,对联合概率P(X|W)·P(W)进行建模(语音识别结果=声学模型×语言模型)】【端到端语音识别:直接对条件概率 P(W|X)进行建模 】

    一.传统语音识别基本原理(基于贝叶斯公式) 设一段语音信号经过特征提取得到特征向量序列为 X=[x1, x2, -, xN], 其中 xi 是一帧的特征向量, i=1, 2, -,N, N 为特征向量 ...

  9. 智能语音识别技术入门系列(上)

    本系列文章开始,我们将一起探索自动语音识别.语言处理技术所包含的核心算法.模型及未来的发展趋势.本篇文章我们主要讨论语音识别的基本概念.并理解语音识别技术的流程. (一) 自动语音识别技术ASR 自动 ...

最新文章

  1. collection_check_boxes的应用
  2. Microsoft Excel软件打开文件出现文件的格式与文件扩展名指定格式不一致?
  3. Sqlserver 2012 导入 DBF文件
  4. 【正一专栏】上港接过恒大的旗帜继续驰骋亚冠
  5. mysql命令行查看端口占用_linux下常用命令查看端口占用
  6. Made in China 另解!
  7. linux系统更新字体,更换Linux下字体
  8. JS 逆向 --- 过无限debugge、hook、js混淆还原、控制流混淆
  9. 不妨问问自己,学习C语言是为了什么?
  10. php spl函数,PHP SPL标准库中的常用函数介绍
  11. IT草根的江湖之路之七: 挑战,刚刚开始
  12. 矩阵快速乘法---代码
  13. 提交spark任务命令
  14. 高等代数第3版下 [丘维声 著] 2015年版_一文搞懂代数几何发展史(一)
  15. html当前时间插件,HTML日期时间插件
  16. st7789 旋转_玩转 ESP32 + Arduino(二十八) TFT_eSPI库驱动ST7789
  17. web大学生个人网站作业模板---钢铁侠电影下拉音乐滚字表单三级(9页)
  18. 从淘宝P5到天猫总监,她的阿里十年发生了什么?
  19. 输入带有累计折旧的资产
  20. 学校机房的网屏蔽了某些网站无法访问怎么办?

热门文章

  1. IT日语词汇讲解篇--对日软件开发的流程
  2. java将date类型转成yyyymmdd_[转]Java中Date转换大全,返回yyyy-MM-dd的Date类型
  3. Mysql建库建表语句分享
  4. 文献阅读——How to read a paper
  5. 对等网中计算机网卡是怎么安装的,实验三 对等网的组建
  6. 波士顿动力新年炸场!人形机器人飞身转投工具包,最后体操式落地把人类给整不会了...
  7. 如何用Qt Python创建简单的桌面条形码应用
  8. matlab中plot和xlabel,matlab tips--plot之xlabel/ylabel
  9. php答题抽奖源码,夺宝答题王小程序完整源码(含前端/后端以及数据库脚本)
  10. 2022卡塔尔世界杯 | 我与足球的爱恨情仇