LibriSpeech数据集--学习笔记

数据采集自有声书网站，首先对每个句子做一遍语音识别，识别模型使用WSJ示例中的声学模型，语言模型使用二元文法，语言模型数据为语音数据对应的电子书文本。根据识别结果，统计每个说话人的WER，从低到高排序，前一半标记为clean，表示这些说话人语音比较清晰，其余标记为other。
1. WSJ：是一个朗读数据。内容是朗读华尔街日报，共80小时。是kaldi中的一个示例
2. 二元文法：
  1. 语言模型：计算句子出现的概率的模型，统计的对象就是人工标注成的语料库
  2. 随着句子长度增大，语言模型会遇到的问题：
    1. 数据稀疏：长度越长的句子越难出现，可能统计不到频次。
    2. 计算代价越大，需要的存储越多。即使用字典树索引，代价还是很高。
  3. 使用马尔可夫假设来简化语言模型：
    1. 马尔可夫链：给定时间线上有一串事件顺序发生，假设每个事件的发生概率只取决于前一个事件，那么这串事件构成的因果链被称作马尔可夫链。
    2. 在语言模型中，每个单词出现的概率只取决于前一个单词，则该语言模型称为二元语法模型
    3. 由于语料库中二元连续的重复程度要高于整个句子的重要程度，缓解了数据稀疏的问题，另外二元连续的总数量远远小于句子的数量，存储和查询也得到了解决。
3. WER：词错率，一项用于评价ASR性能的重要指标，用来评价预测文本与标准文本之间错误率，因此词错率最大的特点是越小越好。像英语、阿拉伯语语音转文本或语音识别任务中研究者常用WER衡量ASR效果好坏。
该数据集是包含大约1000小时的英语语音的大型语料库。这些数据来自LibriVox项目的有声读物。它已被分割并正确对齐，如果你正在寻找一个起点，请查看已准备好的声学模型，这些模型在kaldi-asr.org和语言模型上进行了训练，适合评估。

LibriSpeech数据集--学习笔记相关推荐

KITTI数据集学习笔记
Kitti数据集本文为笔者自我学习的笔记,本人刚入门3D视觉,若有错误的地方恳请各位指正.另外参考了一篇热门博客:https://blog.csdn.net/Solomon1558/article/ ...
S3DIS数据集学习笔记
1.整体介绍 S3DIS是一个大型的3d室内数据集.S3DIS数据集共五个区域共271个房间每个区域有多个物体,每个物体的类别有一个对应的txt文件,txt文件中存储的都是点的坐标和颜色信息,其类 ...
数据集学习笔记(一):常用检测、行为检测数据集
文章目录常用检测数据集一 CIFAR系列二 COCO 三 VOC系列四 CIFAR10 五.TT100K 六将图像数据集划分为训练集,验证集,测试集常用行为检测数据集 UCF101 常用检 ...
显著性检测数据集—学习笔记
文章目录 DUT-OMRON DUTS HKU-IS ECSSD/CSSD SOD PASCAL-S 参考资料 DUT-OMRON 数据集包含5168张图像,最大边长为400像素,数据集中具有一个或多 ...
数据集学习笔记(四):VOC转COCO数据集并据txt中图片的名字批量提取对应的图片并保存到另一个文件夹
文章目录转换代码根据名字将图片保存在另一个文件夹转换代码 import os import random import shutil import sys import json import ...
显著性检测—学习笔记
视觉显著性旨在模仿人类视觉系统选择视觉场景的某个子集的能力.而显著性物体检测(SOD)则侧重于检测场景中吸引最多注意力的物体,然后逐像素的提取物体的轮廓.SOD的优点在于它在许多计算机视觉任务中均有广 ...
Caffe学习笔记3——制作并训练自己的数据集
Caffe学习笔记3 本文为原创作品,未经本人同意,禁止转载,禁止用于商业用途!本人对博客使用拥有最终解释权欢迎关注我的博客:http://blog.csdn.net/hit2015spring和h ...
python数据挖掘学习笔记】十九.鸢尾花数据集可视化、线性回归、决策树花样分析
#2018-04-05 16:57:26 April Thursday the 14 week, the 095 day SZ SSMR python数据挖掘学习笔记]十九.鸢尾花数据集可视化.线性回 ...
《南溪的目标检测学习笔记》——COCO数据集的学习笔记
1 COCO数据集 COCO数据集下载链接:COCO_download 1.1 数据概览数据集大小 train: 118287张 train+val: 123287张 val: 5000张目标数量 ...

LibriSpeech数据集--学习笔记

LibriSpeech数据集--学习笔记相关推荐

最新文章

热门文章