一、基本信息
数据集全名叫CSR-I (WSJ0) Complete。1991 年,DARPA 口语项目开始计划建立一个新的语料库,以支持对大词汇量连续语音识别 (CSR) 系统的研究。前两个 CSR 语料库主要由阅读语音组成,其文本来自华尔街日报新闻文本的机器可读语料库,因此通常被称为 WSJ0 和 WSJ1。
语料库的文本属于 WSJ 文本语料库的 5,000 字或 20,000 字子集。 除了朗读的演讲外,还包括一些自发的听写。 听写部分是使用口述假设新闻文章的记者收集的。
整个过程中使用了两个麦克风:一个近距离的 Sennheiser HMD414 和一个辅助麦克风,辅助麦克风可能会有所不同。 语料库以三种配置提供:来自 Sennheiser 的语音、来自另一个麦克风的语音以及来自两者的语音; 这三组包括所有转录、测试、文档等。
下面为引用链接

https://catalog.ldc.upenn.edu/LDC93S6A

二、数据集内文件介绍
数据集里不同文件的内容具体介绍,由于比较繁琐,请看相关的网页链接。wsj0文档

WSJ0数据集简单介绍相关推荐

  1. 显著性检测数据集简单介绍及下载链接

    显著性检测是计算机视觉的一个重要分支,而在深度学习的训练阶段.显著性检测算法的评价阶段等都需要大量有标注信息的数据集.这里简单介绍以下几种数据集,并给出一些数据集下载的链接. 早期的显著性检测研究是针 ...

  2. RESIDE数据集简单介绍

    概述: 该数据集使用由合成和真实世界模糊图像组成的新的大规模基准,称为真实单图像去雾 (RESIDE),对现有的单图像去雾算法进行了全面的研究和评估.RESIDE 突出了不同的数据源和图像内容,分为五 ...

  3. 【计算机视觉】COCO Caption数据集简单介绍

    最近在做开放域目标检测时候,经常遇到一个数据集-COCO Caption数据集. 这里就来介绍一下数据集. COCO Caption数据集: Microsoft COCO Caption数据集的推出, ...

  4. CelebA数据集简单介绍,及做人脸识别时数据集的处理

    CeleA是香港中文大学的开放数据,包含10177个名人身份的202599张图片,并且都做好了特征标记,这对人脸相关的训练是非常好用的数据集.网盘链接 数据包含了三个文件夹,一个描述文档如下: img ...

  5. Mnist数据集 简单介绍

    MNIST数据库 可从此页面获得的MNIST手写数字数据库的训练集为60,000个示例,而测试集为10,000个示例.它是NIST可提供的更大集合的子集.这些数字已进行尺寸规格化,并在固定尺寸的图像中 ...

  6. 机器学习排序之Learning to Rank简单介绍

     机器学习排序之Learning to Rank简单介绍 标签: Learning to Rank学习排序PointwisePairwiseListwise 2015-01-03 21:50 23 ...

  7. Oracle with子句的简单介绍.

    在ocp题库中有一题是关于with语句的. Which statements are true regarding the usage of the WITH clause in complex co ...

  8. 简单介绍下我使用了一年多还不知道的Sql server 2005 组件知识

    简介 Microsoft SQL Server 2005 是用于大规模联机事务处理 (OLTP).数据仓库和电子商务应用的数据库平台:也是用于数据集成.分析和报表解决方案的商业智能平台. SQL Se ...

  9. hadoop简单介绍_Hadoop:简单介绍

    hadoop简单介绍 什么是Hadoop: Hadoop是用Java编写的框架,用于在大型商品硬件群集上运行应用程序,并具有类似于Google File System和MapReduce的功能 . H ...

  10. Hadoop:简单介绍

    什么是Hadoop: Hadoop是一种用Java编写的框架,用于在大型商品硬件集群上运行应用程序,并具有类似于Google File System和MapReduce的功能 . HDFS是高度容错的 ...

最新文章

  1. [WinAPI] API 5 [遍历驱动器并获取驱动器属性]
  2. 最小正连续子序列和 问题
  3. 帮管客CRM客户管理系统
  4. 计算机工作在原理课件,滇人版七年级信息技术下册第一单元第一课第三课时计算机工作原理.ppt...
  5. axure如何页面滑动时广告位上移_Axure案例:滑动输入,学会这一招,你就能超越80%的人...
  6. 孙玄:构建企业级业务高可用的延时消息中台
  7. 【笔记】Loop曲面细分算法c++实现
  8. (附源码)计算机毕业设计SSM教务排课管理系统
  9. 有意思的atoll函数
  10. 关于行人重识别方法PCB《Beyond Part Models: Person Retrieval with Refined Part Pooling 》及代码实现解读
  11. Java算法:LeetCode算法Java版合集1111-1588题
  12. 浙江财经大学第十四届程序设计竞赛命题感想
  13. 自学闲置电脑部署NAS服务器打造家庭影院
  14. 大商创x支持mysql版本_【大商创安装】大商创X宝塔面板安装配置简述
  15. win10系统文件无法复制到u盘怎么办【系统天地】
  16. 《Verloge HDL数字系统设计及仿真》选题五——篮球24秒计时
  17. 中医诊所管理系统哪一类实用 ?
  18. 概率统计及其应用第三章知识总结_肖博高中数学必备知识点总结最全版-第一更...
  19. 有道云导入html,有道云笔记网页剪报怎么用 有道云笔记网页剪报使用教程
  20. 浙江齐志科技面试总结(挂在二面。。)

热门文章

  1. 用 Mac 输入罗马数字
  2. ONLYOFFICE Docs如何与NEXTCLOUD 24连接集成
  3. 【翻译】 Unity3D VR 教程:4.VR中的用户界面
  4. python_csv文件写入
  5. 螺旋英雄谭怎么在电脑上玩 螺旋英雄谭安卓模拟器教程
  6. vue下载二进制流图片
  7. Ubuntu 14.04 LTS 启动blast2go 报错
  8. 两个网段计算机如何共享打印机,不同网段的打印机共享怎么连接?具体步骤
  9. python版植物大战僵尸源码_『原创』植物大战僵尸分析及Python辅助实现
  10. 你对自己的定位是什么,就能成为什么样的人(转)