合适的数据集或者语料是优秀的自然语言研究工作的基础,然而找寻合适的数据集通常是一件耗时耗力的工作。这时候一份优质的数据集汇总就能帮助科研人员,在研究开始的时候事半功倍。这篇文章就向你介绍一份优质的数据集汇总,帮助你的研究工作轻松选择一片合适的用武之地。

本文主要介绍由我研究中心博士生侯宇泰收集整理的一个任务型对话数据集大全。

图1. 数据集汇总项目

这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。

数据集的地址如下:

https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey

一.背景介绍:什么是任务型对话 

我们收集的数据集主要针对任务型对话研究(Task-oriented Dialogue)。

任务型对话系统指在特定的情境下帮助用户完成特定任务的对话服务系统,例如帮助用户订餐、订酒店的对话系统。近年来,随着亚马逊Alex,微软小娜,苹果Siri等个人语音助理业务的兴起,基于对话的人机交互方式得到了广泛的关注,相关的研究也越来越多,俨然成为一个富有潜力的研究方向。

图2. 语音助手

目前任务型对话的研究可以大体分为两类:基于流程的任务型对话(Pipeline)以及端到端的任务型对话(End-to-End)。

基于流程的任务型对话是相对较为传统的方法。这种任务型对话的系统通过一套Pipeline流程实现。如图3所示, 任务型对话系统的流程依次包括:自然语言理解、对话状态跟踪、对话策略学习,自然语言生成模块。具体的,用户输入自然语言,对话系统按流程依次完成:分析用户意图,更新对话状态,根据对话策略做出动作,生成最终的自然语言回复。

图3. Pipeline任务型对话

然而,Pipeline流程式的对话系统存在错误级联和标注开销大的问题,为此最近有一部分研究尝试通过直接进行端到端的任务型对话学习来规避这些问题。端到端式对话系统根据用户输入句子直接给出自然语言回复。

二.为什么要做数据集汇总?

任务型对话任务并不是新课题,但是针对任务型对话的广泛研究在最近几年才兴起。任务型对话研究的方兴未艾反映在数据和语料上,就是目前现有的任务型对话数据集数量少,且其他成熟的任务已有的数据集在数据量上要少的多。 在这种情况下,尽可能多找到并有效的利用已有的数据资源就成为开展研究的关键之一。然而,搜罗并全面的寻找合适的数据集是一个费时费力的工作,所以整理统计目前已有的任务型对话领域的数据集的信息是有必要的,可以极大地为相关研究工作提供便利,让研究工作得以地快速开始。

除了数据本身的信息有价值之外,在重要数据集上的实验结果提升过程,可以很大程度上反映自然语言研究的前进脉络。所以,简单的数据集信息罗列并不能让我们满意,我们还计划提供一些常用数据上的实验结果和对应论文的信息。从而帮助研究人员了解和把握任务型对话领域研究的推进脉络。我们选择以Leaderboard的形式呈现数据集上的部分实验结果。

三.数据汇总的内容介绍

1.数据集信息

针对每个数据集,我们统计并总结了如下几个方面的内容。

表1. 数据集内容及说明

内容 说明
Name 数据集名称
Introduction 数据集简介
Link (Download & Paper) 数据下载链接和对应论文的链接
Multi or single turn 对话数据是多轮还是单轮
Task 对话数据是否为任务型对话
Task detail 对话数据取自什么应用情景,如订餐,导航等
Whether Public Accessible 是否可以免费下载
Size & Stats 数据量、标注量统计
Included Label 数据包括的标注类型
Missing Label 数据缺失的标注类型

类似其他常见数据集汇总工作,我们为每个数据集提供了名称,下载链接,简介,数据量等信息。除了这些基本信息,我们还涵盖了一些任务型对话数据的特有的研究内容,例如:

  • Multi or single turn:对话数据是多轮还是单轮是任务型对话数据的重要属性,单轮对话数据往往用于自然语言理解任务,多轮对话数据往往用于端到端任务、对话策略学习、对话状态跟踪。

  • Task detail:数据适用于什么应用情景也是一个独特的关键信息,通过这个信息,研究者可以快速理解数据,开展Multi-domain 或Domain-transfer研究。

2. 实验结果Leaderboard

对于一些研究常用数据,我们提供了上面的一些State-of-the-art实验结果,并以Leaderboard的形式呈现,具体包括内容如下:

表2. Leaderboard内容及说明

内容 说明
Model 模型的名称
Score 主要实验结果,F1分数,准确率等
Paper/Source 模型对应论文的名称和链接

其中我们的模型名称采用出处论文中的表述,分数的评价指标以具体的任务而定。实验结果列表配合上论文链接,可以让读者快速地了解一个任务。

此项信息内容仍在完善中。

四.数据集汇总内容样例

1. 数据集介绍样例

数据集的汇总目前以表格的形式,收录了17个数据的细节信息。读者可以在github项目中Excel文件或者Readme中直接查看。数据的格式如图4所示。

图4. 数据细节样例

2. Leaderboard 样例

我们以Leaderboard 的形式展示了语义槽抽取(Slot filling),用户意图识别(Intent detection),对话状态跟踪(Dialogue state tracking)三个任务上的一些领先结果。具体形式如图5所示。

图5. Leaderboard的样例

五.关于内容补充的邀请

我们欢迎各种形式的内容完善,包括但不限于:

  • 直接提交Pull Request

  • 向我们发送新数据

  • 向我们发送新的实验结果(已发表论文)

六.其他

数据集汇总地址如下:

https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey

最新任务型对话数据集大全相关推荐

  1. RiSAWOZ中文任务型对话数据集

    RiSAWOZ中文任务型对话数据集 标题:<RiSAWOZ: A Large-Scale Multi-DomainWizard-of-Oz Dataset with Rich Semantic ...

  2. 为新研究准备好一块用武之地:最全任务型对话数据调研

    合适的数据集或者语料是优秀的自然语言研究工作的基础,然而找寻合适的数据集通常是一件耗时耗力的工作.这时候一份优质的数据集汇总就能帮助科研人员,在研究开始的时候事半功倍.这篇文章就向你介绍一份优质的数据 ...

  3. 重访马尔可夫生成式任务型对话 Revisiting Markovian Generative Architectures for Efficient Task-Oriented Dialog Sys

    这项工作是清华大学欧智坚老师团队和中移动研究院冯俊兰老师团队合作的工作.基于马尔科夫生成框架在任务型对话数据集MultiWOZ2.1上获得了较好性能.整体来看,本文属于一篇讨论型论文,认为维护的对话状 ...

  4. OpenViDial:一个大规模多模态对话数据集

    人类对话不仅仅只依靠聊天内容,更需要利用视觉信息.本文构建了一个大规模多模态对话数据集,从电影和电视剧中抽取出(句子,图片)对,经过数据处理与清洗,最终得到一百万余条句子,及其对应的图片信息.此外,本 ...

  5. CrossWOZ,一个大规模跨领域中文任务导向对话数据集

    2018 年,任务导向对话数据集 MultiWOZ 横空出世,并被评为当年 EMNLP 最佳资源论文.由于其大规模多领域的特点,引发了任务导向对话领域新的一轮发展热潮. 为了进一步推动多领域(特别是跨 ...

  6. 揭秘任务型对话机器人(下篇)

    本文来自专栏语言.知识与人工智能,作者腾讯知文实验室 近年来比较热门的任务型对话的研究主要集中在端到端的框架的研究,基本跟传统任务型算法框架--语言理解模块(Spoken Language Under ...

  7. 想了解任务型对话机器人,我们先从自然语言理解聊起

    摘要:本文中主要介绍对话系统中的自然语言理解模块(NLU),NLU是对话系统中非常重要的一个模块,主要包括意图识别和槽位填充. 一.引言 随着移动互联网和智能终端的快速发展,任务型对话机器人的应用越来 ...

  8. 任务型对话(一)—— NLU/SLU(意识识别和槽值填充)

    1,概述 任务型对话系统越来越多的被应用到实际的场景中,例如siri,阿里小密这类的产品.通常任务型对话系统都是基于pipline的方式实现的,具体的流程图如下: 整个pipline由五个模块组成:语 ...

  9. java意图_任务型对话(一)—— NLU/SLU(意图识别和槽值填充)

    1,概述 任务型对话系统越来越多的被应用到实际的场景中,例如siri,阿里小密这类的产品.通常任务型对话系统都是基于pipline的方式实现的,具体的流程图如下: 整个pipline由五个模块组成:语 ...

最新文章

  1. 法尔康,你大爷的,phalcon配置大全
  2. 焦油坑和人月神话--人月笔记1
  3. 具有CDI和lambda的策略模式
  4. 软件结构B/S和C/S
  5. Strategy 策略模式
  6. org.springframework.data.redis.serializer.SerializationException: Cannot serialize;
  7. python的2种字符串格式化输出
  8. 前端展示 字数过多 进行隐藏
  9. 编程语言之父谈语言设计,龟叔大赞 TypeScript
  10. ASP.NET2.0网站配置的数据库连接失败问题(zz)
  11. 猿创征文|C++软件开发值得推荐的十大高效软件分析工具
  12. 深入浅出mysql csdn_《深入浅出MySQL:数据库开发、优化与管理维护
  13. 腾讯云搭建Socks5多IP代理服务器实现游戏单窗口单IP完美搭建教程附带工具
  14. .net cms系统
  15. (XWZ)的python学习笔记Ⅶ——正则表达式
  16. 【FPGA】如何理解全加器
  17. 【经典箴言 || 人生感悟 】
  18. activiti使用mysql,启动报错。
  19. 2018年医疗大数据产业的发展及解决方案
  20. 智慧路灯点亮新型城市

热门文章

  1. Redis之整数集合intset
  2. Linux cpuidle framework
  3. 声明为数组定义为指针,声明为指针定义为数组
  4. 看完少年的你,想到少年的我
  5. java jpa jar_JPA 开发所需的Jar包 (基于Hibernate)
  6. 一、操作系统——处理机(作业)调度算法:先来先服务算法FCFS、最短作业优先算法SJF(非抢占式)、 最短剩余时间优先算法SRTN(抢占式)、最高响应比优先算法HRRN
  7. LeetCode 1187. 使数组严格递增(DP)*
  8. LeetCode 995. K 连续位的最小翻转次数(差分思想)
  9. 02.改善深层神经网络:超参数调试、正则化以及优化 W1.深度学习的实践层面
  10. LeetCode 418. 屏幕可显示句子的数量(DP)*