您所在位置:网站首页 > 海量文档

&nbsp>&nbsp资格/认证考试&nbsp>&nbsp自考

北京理工大学语音识别技术.ppt58页

本文档一共被下载:次,您可全文免费在线阅读后下载本文档。

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

2.该文档所得收入(下载+内容+预览三)归上传者、原创者。

3.登录后可充值,立即自动返金币,充值渠道很便利

2003-12-02 北京理工大学 语音识别技术 谢 湘 博 士 xie.xiang@263.net 北京理工大学电子工程系 现代通信实验室 提 纲 一、语音识别技术概论 二、语音识别生理分析与系统设计 三、语音识别系统举例 四、关键技术——声学特征提取 五、关键技术——HMM 六、汉语语音识别特点 七、参考文献及作业 1.1语音识别学科特点 计算机学科 ——计算机智能接口 信息处理学科——信息识别及提取 通信及电子系统——信源处理 人工智能——时序模式、多维模式识别 …… 声学、生理学、心理学、语音学、语言学 “语音研究工作者应当努力工作在跨学科的领域” 1.2语音识别应用价值 信息查询(股票、天气、航班……) 人机界面(新一代操作系统、智能家居) 听写机(文字输入、记录) 数据库管理(语音检索)…… 语音识别(提取或匹配语义)、语音压缩(高效存储、传输语音信号)、语音合成(输出自然可懂的语音信号)、语音增强(提高信噪比、加重语音成分)息息相关。 说话人识别(安全应用) 关键词检出(多媒体数据检索)…… 1.3语音识别系统分类及典型系统 孤立词-连接词-连续语音-自然语音 特定人-非特定人 词汇量(小、中、大) IBM ViaVoice 听写机 AT&T VRCP系统(自助话务员协助呼叫) NTT ANSER 语音识别银行服务系统 SONY AIBO 机器狗 1.4 语音识别历史发展 50年代-AT&T Bell Lab,可识别10个英文数字 60年代-LP较好地解决了语音信号产生模型, DP则有效解决了不等长语音的匹配问题。 70年代-DTW(Dynamic Time Warp)技术基本成熟,VQ和HMM理论;实现了基于LPC和DTW技术相结合的特定人孤立语音识别系统。 80年代-HMM模型和人工神经元网络(ANN)在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统 SPHINX。 90年代-大规模应用,工业标准,理论进展缓慢 1.5 语音识别的性能评价 原句:我 们 明 天 去 天 安 门 识别:我 × 明后天 去 天 坛 × 删除错误 Deletion 插入错误 Insertion 替换错误 Substitution 正确率: 准确率: 1.6 语音识别技术面临的问题 数据资源 (年龄、性别、语言、方言、主题、情绪、地域……切分、标注体系) 抗噪性能(背景噪声、信道噪声、干扰) 协同发音(Co-articulation) 口语现象(重复、顿措、语序颠倒……) 说话人变异(口音、情绪、年龄……) 听觉机理(音量、频率、抗噪、区分……) ………… 2.1语音产生语音理解生理过程 2.2语音识别层次模型 2.3统一层次模型——系统设计 2.4 各类典型语音识别系统比较 3.1语音识别系统基本构成 3.2语音识别系统举例 4、特征提取 预加重: 分帧: 短时平稳(10-30ms) 加窗:Hamming 特征参数 倒谱均值归一化 4.1 特征参数 静态参数:Mel-Frequency Cepstrum Coefficients (MFCC)、PLPC…… 帧能量 动态参数 4.2 Mel-频率 目的:模拟人耳对不同频率语音的感知 人类对不同频率语音有不同的感知能力 1kHz以下,与频率成线性关系 1kHz以上,与频率成对数关系 Mel频率定义 1Mel—1kHz音调感知程度的1/1000 Mel-频率 公式: 频率-Mel-频率: MFCC 计算流程: Discrete Fourier Transform (DFT) 公式: 应用:Fast Fourier Transform (FFT) Mel 滤波器组—参数选择 以采样率8kHz,帧宽30ms为例: FFT窗宽:512 滤波器个数:26 (通常24-40) 滤波器频率应用范围(电话频带): 最高:3400Hz 最低:300Hz Mel 滤波器组—图示 对数能量 公式: 应用:对噪音和谱估计误差有更好的鲁棒性 倒谱参数 Discrete Cosine Transform (DCT) 倒谱维数:前12维 4.3 帧能量 公式: 应用: 4.4 动态参数 反映帧间相关信息 一阶差分: 二阶差分: 4.5 特征参数 特征矢量 图例:m=1 4.6 倒谱均值归一化 Cepstrum Mean Normalization (CMN) 目的:消除信道带来的影响 应用:T通常为整个词的特征帧数 一个变形: 5. HMM的核心思想和关键技术 问题描述(孤立词识别

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。

用户名:

验证码:

匿名?

发表评论

北京理工大学语音识别技术.ppt相关推荐

  1. 协议关键技术_北京理工大学与华为签署战略合作协议

    1月6日,北京理工大学(以下简称"北理工")与华为技术有限公司(以下简称"华为")在北京理工大学签署战略合作协议并就"智能基座"产教融合协同 ...

  2. 北京理工大学本科毕业论文答辩和论文选题PPT模板

    模板介绍 精美PPT模板设计,北京理工大学本科毕业论文答辩和论文选题PPT模板.一套高校PPT幻灯片模板,内含橙色,灰色多种配色,精美风格设计,动态播放效果,精美实用. 一份设计精美的PPT模板,可以 ...

  3. 北京理工大学计算机学院王涌天,五分钟光学| 北京理工大学王涌天教授谈混合现实技术...

    原标题:五分钟光学| 北京理工大学王涌天教授谈混合现实技术 本文为中国激光第2001篇. 今后的头戴式增强现实(AR)眼镜显示将依靠在眼睛远处形成的透明显示屏,它不影响你观察真实场景,同时,在你需要的 ...

  4. 考研北京理工计算机科学与技术,北京理工大学计算机科学与技术考研

    一.北京理工大学计算机科学与技术考研研究方向有什么? 01 软件理论与工程 02 高性能嵌入式计算 03 网络与信息安全 04 语言信息处理与知识工程 05 智能感知与媒体计算 06 虚拟现实与仿真计 ...

  5. 《语音识别技术》.ppt

    您所在位置:网站首页 > 海量文档 &nbsp>&nbsp幼儿/小学教育&nbsp>&nbsp幼儿教育 <语音识别技术>.ppt57页 本 ...

  6. c语言压缩文本文件北京理工大学,北京理工大学C语言程序设计第十二章文件.ppt...

    北京理工大学C语言程序设计第十二章文件 2000年1月25日 北京理工大学 / 第十二章 文件 第一节 文件概述 第二节 文件的处理 第三节 文件的顺序读写操作 第四节 文件的随机读写操作 第五节 文 ...

  7. 【百度贾磊】汉语语音识别技术重大突破:LSTM+CTC详解(22PPT)

    1新智元原创1 作者:王嘉俊 新智元福利 回复1028下载贾磊22页PPT Google 去年发布了一项研究报告,说在美国年龄介于13到18岁的青年当中,约有55%的人每天使用语音搜索. 语音搜索正在 ...

  8. 北京理工大学操作系统复习——习题+知识点

    文章目录 传送门 前言 ppt习题+课后习题汇总 第1章 操作系统概论 操作系统性能指标计算 第2章 进程管理 进程调度算法 课后2-9:最短作业优先 课后2-12:四种算法比较 课后2-13:轮转与 ...

  9. 保研之旅(中科院空天院、武汉大学、华南理工大学、 北京理工大学、中科院国家空间科学中心)

    保研之旅(总结过往,启程未来) 目录 个人背景 5月 中科院空天信息创新研究院信息方向 7月 武汉大学测绘遥感信息工程国家重点实验室 7月 北京理工大学雷抗所 7月 华南理工大学电子信息学院 7月中科 ...

最新文章

  1. 五分钟体验分布式调度框架xxl-job
  2. 积性函数、狄利克雷卷积、莫比乌斯反演
  3. C++开源代码项目汇总
  4. FortiGate 硬件加速
  5. 多线程必须用到的线程池(什么时候用多线程)
  6. 正则表达式 perl
  7. Pytest入门【2】
  8. vim: 远程登陆服务器时可能出现的: 方向键,回退符不能正常使用
  9. python axes_python matplotlib中axes与axis的区别?
  10. C++ STL 函数partial_sum的正确使用方法
  11. JAVA程序设计的一次作业
  12. 搜集了一些AIDA64的GPGPU测试结果,现整理成表格共享
  13. Linux一句话精彩问答-网络无关篇
  14. 工业相机中的全局快门与卷帘快门
  15. Win10喇叭图标出现红叉提示“未安装任何音频输出设备“
  16. C语言内存空间分布详解
  17. 【AWS云从业者基础知识笔记】——模块1:AWS服务简介
  18. 数据解读热门美剧 | 《权力的游戏》花式死亡图鉴
  19. 论文精读 ——《BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection》
  20. Android客户端学习-jdk安装

热门文章

  1. 递归神经网络(Recursive Neural Network, RNN)
  2. Hibernate二级缓存问题
  3. Android studio第四次作业
  4. 数据库存储I/O类型分析与配置
  5. ADO.NET 基础知识
  6. Bailian4002 谁是你的潜在朋友【暴力】
  7. I00015 打印等腰三角形字符图案(底边在上)
  8. 【物理/数学】概念的理解 —— pivot、position
  9. Python 面向对象 —— __init_ 与 __new__
  10. 生活的解释 —— 生物篇