2019 年 12 月,北京智源人工智能研究院联合爱数智慧和数据评测平台 Biendata,共同发布了“智源 MagicSpeechNet 家庭场景中文语音数据集”,其中包含数百小时的真实家庭环境中的双人对话,每段对话基于多种平台进行录制,并已完全转录和标注。

Biendata同步开放了“智源 — MagicSpeechNet 家庭场景语音数据集挑战赛”(2019 年 12 月 — 次年 2 月),总奖金为10 万元。参赛者需要使用比赛提供的数据训练并优化模型。本次比赛由北京爱数智慧科技有限公司提供数据集。今年的“智源— MagicSpeechNet 家庭场景中文语音数据集挑战赛”旨在提升模型在家庭环境的对话语音识别效果,比赛和数据复制下方链接查看,或点击“阅读原文”。

比赛地址:

https://www.biendata.com/competition/magicdata/

赛事背景

随着互联网、智能硬件的普及,智能音箱和语音助手已经深入人们的日常生活,极大地提高了生活的便利性。家居场景下的语音识别技术成为了企业和研究机构研发的一大重点。

从语音识别的角度出发,家庭场景具有较强的多样性:不同的墙体和内装材料以及房间大小和构造会导致房间的声学参数的多样化。与此同时,语音识别产品的载体具有极大的差异性:语音助手一般搭载于用户的手机和智能音箱,不同的载体型号同样会影响声音信号的拾取和呈现。模型对于不同场景和不同设备的适应情况和识别效果极大地影响用户体验,考验着研发者的专业实力。因此可以说,家庭场景是语音识别领域内最典型也最具挑战的应用场景之一。

比赛任务

比赛希望优化语音识别的机器学习模型,可以根据真实家庭场景多设备多通道的录音数据以及对应的标注文本,实现语音识别模型在家庭场景下的性能提升。比赛结果对于智能家居领域下AI语音交互产品的研发的深入普及具有不容忽视的影响力。

比赛分为初赛与复赛两阶段,初赛于2019年12月23日开启,biendata 平台同步发布训练集、开发集、测试集,并开放初赛提交。2020年2月1日,初赛报名和组队时间截止。由于每日提交存在次数限制,请感兴趣的选手尽量选择提前参赛,以获得更多验证提交次数和优化模型的机会。

比赛数据

比赛数据分为训练集、开发集和测试集三部分,具体规模信息如下表所示:

在训练集中,每段对话包括一个音频文件(.wav)和对应的标注文件(.json),如音频“MDT_F2F_001.wav”对应“MDT_F2F_001.json”。

在开发集中,每段对话有 5 个通道的同步录音,包括 3 个远讲通道和 2 个近讲通道。远讲通道包括由安卓平台、iOS 平台,录音笔录制的文件,如:

MDT_Conversation_001_Android.wav

MDT_Conversation_001_IOS.wav

MDT_Conversation_001_Recorder.wav

近讲数据使用高保真麦克风录制,根据不同讲话人区分,如:

MDT_Conversation_001_SPK001.wav

MDT_Conversation_001_SPK002.wav

在开发集中的标注文件(.json)中,“start_time”表示该音频片段的开始时间,“end_time”表示音频片段的终止时间,“words”表示转录的文本,“speaker”表示音频的讲话人,“location”表示音频录制的地点,“room_info”表示录制房间的信息,包括长、宽、高、混响时间(s),“devices_type”表示录制设备信息,“session_id”表示音频片段所在的整段音频 ID。

图:开发集标注文件样例

测试集数据为需要识别的音频文件,每段音频分为安卓平台、iOS 平台,录音笔录制的三个文件。为便于选手分割每段音频,比赛提供了标明起始和结束时间点信息的 json 文件,选手需使用模型识别音频中的对话,并根据 json 中对应的 uttid 提交相应的文本。

智源MagicSpeechNet 家庭场景中文语音数据集

智源 MagicSpeechNet 家庭场景中文语音数据集的语言材料来自于真实家居环境中的双人对话。基于多种平台进行录制,并已完全转录和标注。相较于国内外同类多通道语音识别比赛,本比赛数据在数量、场景、声音特性等方面具有以下优势。

(1)大量的对话数据

国内的语音识别比赛基本使用朗读类型的语音数据,而本比赛使用的数据为真实的对话数据。数据为完全真实场景的对话,说话人以放松和无脚本的方式,围绕所选主题自由对话。相比基于对话数据的国际同类比赛,在数据量方面仍旧具有极大的优势。同时,合理的说话人语音交叠更真实地体现日常家庭场景下的语音识别难度。

(2)场景真实多样

本数据集采集于3个真实的家庭场景,说话人以放松和无脚本的方式,围绕所选主题自由对话。不同的采集环境丰富了数据的多样性,同时增强了比赛的难度。

(3)近讲与多平台远讲数据结合

每段对话有 5 个通道的同步录音,包括 3 个远讲通道和2 个近讲通道。远讲通道分别由多个型号的安卓手机,苹果手机和录音笔录制,充分体现多平台录音数据的特性;近讲数据使用高保真麦克风录制,与说话人的嘴保持10 cm 的距离。

(4)丰富均衡的声音特性

本数据集拥有丰富均衡的声音特性。录制本数据集的说话人来自中国大陆不同地域,存在一定的普通话口音。同时,说话人选自不同年龄段,性别均衡。

参赛方式

点击阅读原文链接或扫描下图中的二维码直达赛事页面,注册网站-下载数据,即可参赛。

▶友情提示,因涉及到数据下载,强烈建议大家登录 PC 页面报名参加。

智源人工智能系列竞赛

2019 年 9 月,智源人工智能算法大赛正式启动。本次比赛由北京智源人工智能研究院主办,爱数智慧、清华大学、北京大学、中科院计算所、旷视、知乎等协办,总奖金超过 100 万元,旨在以全球领先的科研数据集与算法竞赛为平台,选拔培育人工智能创新人才。

北京智源人工智能研究院院长、北京大学教授黄铁军介绍:智源的中心任务是在北京建成全球最优的人工智能创新生态,核心是选拔培育人工智能顶尖人才和发展潜力大的青年学术英才。研究院副院长刘江也表示:“我们希望不拘一格来支持人工智能真正的标志性突破,即使是本科生,如果真的是好苗子,我们也一定支持。”而人工智能大赛就是发现有潜力的年轻学者的重要途径。

本次智源人工智能算法大赛有两个重要的目的,一是通过发布数据集和数据竞赛的方式,推动基础研究的进展。特别是可以让计算机领域的学者参与到其它学科的基础科学研究中。二是可以通过比赛筛选、锻炼相关领域的人才。截止到目前,智源人工智能系列大赛已开展 5 场,分别涵盖了神经生物学、自然语言处理、机器视觉等领域。在年底前,智源研究院还将陆续发布 3 道赛题,敬请大家期待!

目前正在角逐的比赛:

  • 智源-知乎2019看山杯专家算法发现大赛

    https://www.biendata.com/competition/zhihu2019/

  • 智源-超高清晰电镜图像分割挑战赛 神经元识别大赛

    https://www.biendata.com/competition/urisc/

  • 智源-高能对撞粒子分类挑战赛

    https://www.biendata.com/competition/jet/

- 往期文章 -

“智源-MagicSpeechNet 家庭场景中文语音数据集挑战赛”上线相关推荐

  1. “智源 — INSPEC 工业大数据质量预测赛” 上线,为硬核工业制造炼就 AI 之心...

    2019 年 12 月,北京智源人工智能研究院联合博世和数据评测平台biendata,共同发布了"INSPEC 工业检测大数据 (Industrial Specification Inspe ...

  2. 交互式多模型_26亿参数,智源、清华开源中文大规模预训练模型

    近日,北京智源人工智能研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型 CPM-LM,参数规模达 26 亿,预训练中文数据规模 100 GB. 26亿参数,智源.清华开源中文大规模 ...

  3. CN-Celeb 无约束条件说话人识别的中文语音数据集

    CN-Celeb 无约束条件说话人识别的中文语音数据集 数据源:http://www.openslr.org/82/ 项目源:http://cslt.riit.tsinghua.edu.cn/medi ...

  4. 数据集超越MS COCO,2020智源x旷视Objects365物体检测挑战赛开赛

    2020智源x旷视Objects365物体检测挑战赛正式启动上线.2019年北京智源人工智能研究院联合旷视科技共同推出了两个检测任务的新基准:Objects365和CrowdHuman,并同步开放了两 ...

  5. 【深度学习】自然场景中文汉字数据集下载

    自然场景中文汉字数据集   本数据集包括3273类汉字,共47万张汉字图片,每类汉字归类在一个文件夹下,各图像尺寸不一,包含在自然场景下能见到的各种字体. 本人由于需要大量的自然场景中文汉字数据集,而 ...

  6. 智源杯天文数据算法挑战赛开赛,前沿AI技术助力天文科学研究

    由北京智源人工智能研究院主办,国家天文台.数据评测平台biendata联合举办的天体分类数据竞赛于2020年1月开赛.本次比赛旨在鼓励大众参与到天文学的探索当中,利用最新的人工智能算法分析望远镜收集到 ...

  7. 10万元奖金“智源工业检测赛”激战正酣!高分Baseline合辑带你入门智能制造

    百年德企博世放出真实独家生产场景脱敏数据,邀你为工业 4.0 制造练就 AI 大脑. 目前,由北京智源人工智能研究院联合博世和 biendata 共同发布的"INSPEC 工业大数据质量预测 ...

  8. 中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡...

    来源:AI科技评论 作者:琰琰 编辑:青暮 人工智能大模型时代,评测基准成为大模型发展的风向标.从扁平到全面系统,从简化到多重维度,智源指数CUGE旨在尝试为大模型评测设计一张全面评估综合能力的新考卷 ...

  9. 活动要点回顾 | 智源论坛:自然语言处理报告会

    2019年11月7日,北京智源人工智能研究院在清华大学FIT楼举办了"智源论坛(第八期):自然语言处理报告会".四位智源学者--北京大学教授穗志方.清华大学长聘教授李涓子.北京大学 ...

最新文章

  1. CocoaPods私有库搭建的记录
  2. 算法------长度最小的子数组
  3. SVM支持向量机--sklearn研究
  4. QGridLayout比例
  5. strcompare php,PHP中的startswith()和endsWith()函数
  6. Infor与Marketo®合作,帮助全球企业实现客户体验变革
  7. 越来越像QQ?微信支持批量删好友啦!安卓用户“不配”
  8. mysql 中文 3个字节_mysql 字节问题,中文和数字
  9. Java开发环境搭建及开发软件和服务器安装与配置
  10. CSDN如何赚积分及C币
  11. 前端原生开发解决方案
  12. 笔记本电池“衰老”了怎么办?
  13. PE安装Win10纯净版教程【附Win10企业版/专业版/64/32位系统下载地址以及系统激活工具和解压软件安装包】
  14. linux服务器安装laravel教程
  15. re2c源码下载及编译
  16. 手机摄像头基础知识-1-缩写篇
  17. You can't specify target table 'Person' for update in FROM clause
  18. 第一只python小爬虫
  19. oh-my-zsh的安装与基本配置
  20. 如何获取喜欢的图片的rgb颜色?(有微信就可以)

热门文章

  1. 英文字母大写 html,英文大小写格式
  2. php编程神器,PHP代码神器 十个PHP代码片段超极好用
  3. html中content属性,CSS3的content属性用法详解
  4. python sort函数key_Python:s.sort([cmp[, key[, reverse]]])
  5. gram矩阵_ZEN-基于N-gram的中文Encoder
  6. 【c语言】蓝桥杯算法提高 淘淘的名单
  7. 【c语言】蓝桥杯算法训练 P0505
  8. 撕裂者cpu三代文件服务器,AMD三代线程撕裂者CPU开盖:钎焊散热、64核若隐若现...
  9. spring aop 之链式调用
  10. 上传程序网站至服务器