为了进一步丰富开源语音语料库,促进语音语言处理技术的发展,Magic Data联合中科院声学研究所、上海交通大学和西北工业大学,在Magichub开源社区正式开源180小时中文对话式语音数据集MagicData-RAMC。MagicData-RAMC是一批高质量且标注丰富的训练数据,可以很好地支持开发者完成语音识别和说话人日志相关的研究。

数据集下载地址 MagicData-RAMC Conversational Speech Dataset – MagicHub

论文地址 https://arxiv.org/abs/2203.16844

基线地址 https://github.com/MagicHub-io/MagicData-RAMC-Challenge

同时,Magic Data(北京爱数智慧科技有限公司)联合中科院声学研究所、上海交通大学和西北工业大学基于MagicData-RAMC完成了语音识别、说话人日志和关键词检索的相关研究,该工作已投稿语音领域顶级会议Interspeech 2022。

【数据简介】

MagicData-RAMC包括351组多轮普通话对话,时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域,录制信息包括了环境和设备。

【数据收集】

MagicData-RAMC数据均于室内采集。声学环境为不足20平米的房间,混响时间(RT60)小于0.4秒。环境噪音水平低于40dB(A),录制过程中环境相对安静。所有录制的参与者都是以中文为母语的流利普通话使用者,他们的口音略有不同。

音频由Magic Data开发的手机应用程序录制,录制使用的手机均是主流的智能手机,其中安卓和IOS系统的使用比例约1:1。音频文件为16比特采样点,采样率为16KHz,录音质量比同类型的对话语音语料库(如HKUST/MTS、SwitchBoard、Fisher)更高。

转录文本由Magic Data人工标注并由专业检验员校对。MagicData-RAMC标注信息非常丰富,在语音内容转写结果的基础上,还标注了非语言信息,包括笑声、音乐声、噪声等。口语对话中常见的犹豫、重复等语言不流畅的现象也被标注出来。对话中每个说话人的起始时间戳也被标注出来,可以用于说话人日志相关的研究。

【数据分布】

性别和地域分布均衡:为了尽可能地反应真实世界中的对话场景,MagicData-RAMC在收集过程中保证了性别和地域的均衡性,以及话题的多样性。MagicData-RAMC中共计663为说话人,其中男性368人、女性295人,来自北方334人、南方329人。性别、地域和省份分布的饼状图1、图2、图3所示。

话题丰富多样:在每一组多轮对话,两位说话人仅围绕一个主题开展自然对话,平均时长30分钟。说话人灵活地回应对方,而非死板地问答。因此,每组对话的主题是连贯的,历史的对话与当前的内容密切相关,非常适合用于研究对话式的语音识别任务[6]。MagicData-RAMC涵盖了15类话题,话题的多样性以及对话中话题的一致性适合研究开放领域的口语对话任务。MagicData-RAMC话题分布饼状图如图4所示。

【基线系统】

以中科院声学研究所为首的研究团队基于MagicData-RAMC数据集完成了语音识别、关键词检索和说话人日志的相关研究。官方将MagicData-RAMC数据集划分为150小时的训练集、10小时的开发集和20小时的测试集。下面简要介绍基线系统。

语音识别:在语音识别任务中,他们使用开源工具ESPnet[1]训练Conformer[2]模型,训练数据包括755小时MagicData-READ和150小时MagicData-RAMC。其中MagicData-READ可以从开源社区OpenSLR获取。开发集、测试集的字错误率(Character Error Rate, CER)分别为16.5%和19.1%。

关键词检索:在关键词检索任务中,他们基于Comformer模型和动态时间对齐算法[3],检索200个关键词。关键词随MagicData-RAMC数据集一同公布。开发集的关键词准确率和召回率分别为86.98%和89.57%;测试集的关键词准确率和召回率分别为85.87%和88.79%。

说话人日志:在说话人日志任务中,他们主要使用了开源工具Kaldi[4]搭建说话人日志系统,系统包括说话人活动性检测模块、说话人特征提取模块和贝叶斯隐马尔可夫聚类模块[5]。开发集、测试集的日志错误率(Diarization Error Rate, DER)分别为5.57%和7.96% (collar 0.25)。

【排行榜】

2021年7月至10月,Magic Data、中科院声学研究所和江苏师范大学主办了“对话式AI语音识别及说话人识别挑战赛”。为了帮助参赛者快速、高质量地完成模型开发和训练,主办方提供了基础脚本和基线模型,提供给参赛者使用。基线地址:GitHub - MagicHub-io/MagicData-RAMC-Challenge

比赛过程中发布的训练集和开发集与MagicData-RAMC中的训练集和开发集一致。比赛分为两个赛道——“对话场景下的语音识别(Automatic Speech Recognition, ASR)准确率”和“对话场景下的说话人识别(Speaker Diarization, SD)准确率”。

现在Magic Data发布的MagicData-RAMC进一步公开了比赛使用的测试数据。当时ASR赛道前5名参赛队伍的CER公布如下:

SD赛道前5名参赛队伍的DER公布如下:

4月18日,我们将在Magichub开源社区继续开放此数据集的测评比赛,敬请关注!更多详情请见:MagicHub – Datasets Download | Open-Source Datasets

目前,Magichub.com开源社区共开源超过100个数据集,数据类型涵盖ASR、TTS、NLP、发音词典等,开源数据语言包括中文、英语、德语、意大利语、阿拉伯语等众多语种。未来,更多语种和类型数据集将持续在社区开源,欢迎大家下载使用。

【开源】MagicData-RAMC :180小时中文对话式语音数据集正式发布相关推荐

  1. Firefly(流萤): 中文对话式大语言模型

    来自:YeungNLP 在本文中,笔者将介绍关于Firefly(流萤)模型的工作,一个中文对话式大语言模型.我们使用较小的模型参数量,如1.4B和2.6B,实现了不错的生成效果. 项目地址: http ...

  2. 最新综述:对话式检索数据集汇总

    ©PaperWeekly 原创 · 作者 | 金金 单位 | 阿里巴巴研究实习生 研究方向 | 推荐系统 简介 对话式检索近年来成为了信息检索中的研究热点,但是该研究领域一直存在数据资源缺乏的问题,一 ...

  3. 对话式AI : 语音助手时代的开启

    对话式交流是人与人之间相互理解.彼此传递信息最方便.最重要的媒介.如今,是人工智能的时代,也是每个人都能够拥有语音助手的时代.几乎每个人手机上都有个 "小爱同学","Hi ...

  4. 社区说 | Wechaty: 6 行代码构建基于个人微信和Whatsapp的对话式人机交互界面应用

    [活动时间]7月22日(本周四)20:00 pm-21:00 pm [活动日程] - 20:00-20:45 Wechaty: 6 行代码构建基于个人微信和 Whatsapp 的对话式人机交互界面应用 ...

  5. 开源(离线)中文语音识别ASR(语音转文本)工具整理

    开源(离线)中文语音识别ASR(语音转文本)工具整理 目录 文章目录 目录 @[toc] open ai 的开源工具:whisper whisper介绍 引用 ASRT语音识别项目 ASRT介绍 引用 ...

  6. 1400小时开源语音数据集,你想要都在这儿

    整理 | 一一 出品 | AI科技大本营(ID:rgznai100) 3 月 1 日,由 Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名 ...

  7. IDC发布对话式人工智能白皮书|附下载

    来源:专知丨公众号 近日,全球著名的信息技术.电信行业和消费科技咨询公司IDC(国际数据公司, International Data Corporation)发布了<对话式人工智能白皮书> ...

  8. 如何快速打造高性能对话式AI?这个NLP公开课带你从入门到进阶,快来报名

    对话式AI正在改变人机交互方式,在生活和工作中给我们带来很大便利. 然而,对话式AI包含自动语音识别.自然语言处理.语音合成等技术领域,从0开发一个对话式AI需要投入的成本和流程非常之多. 那么,有什 ...

  9. 扇贝编程python是干嘛的-产品观察 | 以对话式互动学习撬动转化,扇贝编程瞄准职教市场...

    原标题:产品观察 | 以对话式互动学习撬动转化,扇贝编程瞄准职教市场 成人编程教育是职业教育行业最火热的赛道之一,除了行业内的垂直创业公司,越来越多教育公司也在把业务线延展至这一领域,以便深度结合业务 ...

  10. 基于 CNN 的中文对话情感分析

    1 基于 CNN 的中文对话情感分析:https://www.jianshu.com/p/87ca0616f1a4 2 清华 ACL 2020 长文 | KdConv:多领域知识驱动的中文多轮对话数据 ...

最新文章

  1. 不死鸡和不死牛的故事
  2. 面试必问!Tomcat 优化篇!
  3. Check failed: error == cudaSuccess (74 vs. 0) misaligned address的解决方法
  4. 2006---2009年杭电计算机历年研究生复试---笔试编程
  5. 【STM32】FreeRTOS中断配置
  6. python解决https私密连接警告信息
  7. [POI2015] Pustynia(差分约数,线段树优化建图,拓扑)
  8. 凤凰os linux界面,让deepin linux系统与凤凰os共用个人目录的方法
  9. springmvc最简单的搭建,初学者必看
  10. 使用AD将Gerbera文件转化为PCB文件的那些事
  11. 再写轮播图——两张图切换,一张充当背景并且模糊,一张做展示图
  12. IDEA切换主题(换背景颜色)
  13. 笔记本电脑换内存条流程
  14. treemap倒叙_lua 模拟Treemap 排序
  15. MT1308芯片原厂
  16. Dreamweaver网页作业——紫罗兰永恒花园动漫价绍网页 7页,含有table表格,js表单验证还有首页视频。以及列表页。浮动布局。div+css+js
  17. Android 解决65536
  18. 机器学习基础——香农熵、相对熵(KL散度)与交叉熵
  19. 北理计算机学硕保研,2019计算机保研夏令营经验-上科大、北理、北航、中科院计算所夏令营...
  20. [数据结构] python 单链表的创建

热门文章

  1. xml文件导入wps_Office12使用XML格式存储文件回击WPS
  2. [e袋购APP]高校物业管理的特点
  3. 控制系统分析与设计(一):控制系统分类及建模
  4. Ubuntu安装酷的桌面监控陈程序Conky
  5. Java二维数组——关灯游戏算法
  6. 山东大学软件学院计算机组成原理课程设计实验四
  7. 路由与交换技术考试常见问答
  8. 小米手机解锁,root
  9. 8路USB继电器模块 windows Linux使用
  10. gMIS吉密斯导航菜单Navimenu、自动安装等更新