RiSAWOZ中文任务型对话数据集

标题:《RiSAWOZ: A Large-Scale Multi-DomainWizard-of-Oz Dataset with Rich Semantic Annotations for Task-Oriented Dialogue Modeling》

源码:https://github.com/terryqj0107/RiSAWOZ

时间:2020年10月

作者:苏州大学、天津大学

内容:一个新的中文任务型对话数据集,包含12个领域,是目前最大的。标注很丰富,包含goal的自然语言描述以及结构化的动作。此外,我们尤其提供了语言式的标注在发言现象上,例如省略与互引用。一些benchmark模型也做了通报。

Introduction

12个领域:Attraction, Restaurant, Hotel, Flight, Train, Weather, Movie, TV, Computer, Car, Hospital and Education

富标注:包括domain label、省略、互引用

例子:

Dataset Creation

流程:数据库和本体构建、随机目标生成、对话样本收集、two rounds标注

1 数据库和本体构建

从几个chinese public websites爬取实体及其属性。将属性(slot)分为两类:

Informable slots are attributes that allow the user to constrain the search into the database.

Requestable slots represent specific attributes that the user wants to know about an entity

【即Requestable slots是用户侧无法先验得知与指定的,Informable slots是用户可以先验知道或者指定的】

2 随机目标生成

(1)为所有领域设计对话目标模板。共设计了80个(28个多领域、52个单领域)。对话目标模板建模了用户可能的目标,以占位符代替具体的slot和value。

(2)随机抽样具体的slot和value,填入模板中的占位符,生成具体的对话目标实例。实例的样子形如一个对用户目标的自然语言描述(标注阶段仅用户侧可见)。最终共生成了5600个对话目标实例。每一个实例创建两份对话样本,所以一共是11200个对话样本。

3 对话收集与标注

我们开发了一个基于Client-Server architecture的平台,包括user client和system client,然后让众包人员收集数据。

动作

定义5种用户动作,把greet和bye从general独立出来,用general专指other behaviors that are not covered above

定义7种系统动作,recommend指系统向用户推荐entities。no_offer指系统没有发现matched entity。

领域

which domain the user is talking about

状态

the constraints the user wants to provide and the slots requested by the user. The constraints are called belief states which are a set of slot-value pairs. The belief state is persistent across turns and is used to query the database. The wizard then retrieves the database according to the constraints

Linguistic Annotation(语言学标注)

包括基于话语覆写的省略与互引用。这点与MultiWOZ2.3一样。

【按:论文里的two rounds标注,应该就是指先标注传统label,再标注语言学label】

Our Dataset

1、数据量

set num of dials num of turns
训练集 10000 134580
验证集 600 8116
测试集 600 9286

2、token

用jieba分词,共分出1658645个tokens,平均每轮19.91个token,平均每一个对话有13.57轮。

3、语言学标注

平均每一个对话有1.77个互引用簇(coreference clusters)。单领域下是1.42个,多领域下则是2.45个。在考虑了省略与互引用之后,共有75991个用户话语需要被重构(覆写)。

模型

将RiSAWOZ作为新的benchmark,我们通报了5个主任务和一些其他的任务。

主任务:NLU、DST、NLG、互引用解析、话语覆写。

其他任务:对话策略学习、结构化数据的NLG、用户模拟器、对话摘要、领域迁移、小样本学习等。

baselines:如下图

【按:都是组件化的,并没有端到端的研究。】

数据集观察

1、db_results存放了匹配个数以及结果。似乎有一些标注错误(rule-based?),把一部分system response也放进去了。例如dial_id=train_weather_goal_3-2_v2###10699下turn_id=8的样本。
2、turn_domain绝大多数只有1个,个别(25)有2个,如下:

3 [‘旅游景点’, ‘餐厅’] 那这附近有什么餐厅么,首选火锅类的。 有的,有一家老天桥蛙炉火锅,但是他家的价位偏贵,可以吗?

0 [‘电影’, ‘电视剧’] 您好,有没有好看的爱情片电影推荐一下呀? 您想看哪个国家的爱情片呢?

0 [‘电影’, ‘电视剧’] 你好,最近剧荒了,能不能给我推荐些电影和电视剧呀? 你好,你想看什么类型的呀?

0 [‘电影’, ‘电视剧’] 下午好,我想找两部电影和电视剧看看,你能给我推荐下吗?
哈喽,只要你想得到,我就能找到!你想看什么类型的电影和电视剧呀?

1 [‘电影’, ‘电视剧’] 我想要爱情电影和科幻电视剧,有没有啥好看的呀? 好看的有很多,您想看什么年代的呢?我给您针对性的推荐!

2 [‘电影’, ‘电视剧’] 我想看2010年代的电视剧和1990年代的电影! 那您对片子的地区有要求吗?

3 [‘电影’, ‘电视剧’] 最好是台湾电视剧和美国大片吧,都是很有名的。 为您推荐一部名叫 泰坦尼克号 的爱情片,小李子可太帅了!

4 [‘电影’, ‘电视剧’] 不错不错,不过我之前已经看过了,但我还能再刷一遍。电视剧呢? 台湾电视剧给您推荐 你的孩子不是你的孩子
,片名都把我绕进去啦!

5 [‘旅游景点’, ‘餐厅’] 这家餐厅的营业时间是多会儿?不要我去他们不开门儿的。
您是打算去哪家餐馆了?我还没给您推荐了,为您找到一家价位中等的餐厅付小姐在成都,不知道您觉得合适吗?

0 [‘旅游景点’, ‘餐厅’] 你好,我来苏州办事,顺便想逛逛景点,有没有消费中等的商业中心推荐一下。 观前街不错。

7 [‘旅游景点’, ‘餐厅’] 这家餐厅可以坐地铁直达吗? 可以地铁直达。

4 [‘餐厅’, ‘酒店’] 我想问一下附近有没有价位便宜的酒店,可以给我推荐一家。 附近就这一家符合您要求的云顶之星连锁酒店。

2 [‘旅游景点’, ‘餐厅’] 有什么推荐菜吗? 大闸蟹很不错。

1 [‘旅游景点’, ‘餐厅’] 这个店的地址在哪了? 地址在苏绣路68号苏州中心南区3楼B3-19。

3 [‘旅游景点’, ‘餐厅’] 行,那接下来你在这个区域里查下哪家的粤菜做的好吃啊?给我们推荐一下呗。 你们可以去唐宫海鲜舫用餐。

1 [‘旅游景点’, ‘酒店’] 这个我还真没听说过,那请问标准间房费是多少呀?对啦,这里有金鸡湖景区吧。
标准间的房费是349元哈,您说的金鸡湖景区是在这边的。

1 [‘餐厅’, ‘酒店’] 好的,房费多少? 房费是126元。

1 [‘火车’, ‘飞机’] 好的。请问二等座多少钱呀?我要做下预算。哈。 二等座637.0元。

6 [‘飞机’, ‘天气’] 准点率多少啊?再就是你把深圳的天气也说一下,我这边都有个准备。
好的,航班准点率是87%,下周三深圳的天气是晴转多云。

0 [‘飞机’, ‘天气’] 我打算下周去一趟深圳,你帮我查查深圳的天气吧。 那您打算什么时候出发呢?

0 [‘火车’, ‘飞机’] 你好,我下周五可以休年假了,想和家人一起从北京出发去南京玩玩,坐经济舱就可以,请问那天有哪个航班呢?
你可以坐中国国航CA1847,首都国际机场T3-禄口国际机场T2。

0 [‘电影’, ‘电视剧’] 你好,我现在想看看2000年代最好看的中国香港的科幻片,你帮我推荐一部好吗?
你可以看看《无限复活》这部电影就很好看。

5 [‘电影’, ‘电视剧’] 好的,谢谢,能再帮我找部喜剧片看看吗? 您比较喜欢哪个演员?

0 [‘电影’, ‘电视剧’] 你好,我想找一些影视作品,有什么好的电视剧和电影吗? 你好,你对电视剧有什么要求吗?

0 [‘电影’, ‘电视剧’] 你好,我平时喜欢追剧或者看电影,请问有什么好的推荐吗? 很多呀,电视剧你喜欢什么类型的?

RiSAWOZ中文任务型对话数据集相关推荐

  1. CrossWOZ,一个大规模跨领域中文任务导向对话数据集

    2018 年,任务导向对话数据集 MultiWOZ 横空出世,并被评为当年 EMNLP 最佳资源论文.由于其大规模多领域的特点,引发了任务导向对话领域新的一轮发展热潮. 为了进一步推动多领域(特别是跨 ...

  2. 最新任务型对话数据集大全

    合适的数据集或者语料是优秀的自然语言研究工作的基础,然而找寻合适的数据集通常是一件耗时耗力的工作.这时候一份优质的数据集汇总就能帮助科研人员,在研究开始的时候事半功倍.这篇文章就向你介绍一份优质的数据 ...

  3. 【论文翻译】2020.8 清华大学AI课题组——大型中文短文本对话数据集(A Large-Scale Chinese Short-Text Conversation Dataset)

    大型中文短文本对话数据集 写在前面: 研究用,原创翻译,转载请标明出处:第一次译文,之后会跟进完善.侵删.   今年暑假末,清华大学公开了大型对话数据集及预训练模型.该数据集融合各大社交媒体对话数据库 ...

  4. 为新研究准备好一块用武之地:最全任务型对话数据调研

    合适的数据集或者语料是优秀的自然语言研究工作的基础,然而找寻合适的数据集通常是一件耗时耗力的工作.这时候一份优质的数据集汇总就能帮助科研人员,在研究开始的时候事半功倍.这篇文章就向你介绍一份优质的数据 ...

  5. 重访马尔可夫生成式任务型对话 Revisiting Markovian Generative Architectures for Efficient Task-Oriented Dialog Sys

    这项工作是清华大学欧智坚老师团队和中移动研究院冯俊兰老师团队合作的工作.基于马尔科夫生成框架在任务型对话数据集MultiWOZ2.1上获得了较好性能.整体来看,本文属于一篇讨论型论文,认为维护的对话状 ...

  6. 中文任务型对话系统中的领域分类

    大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ:项目地址:https://gitee.com/yh14232988/CrossWOZ?_from=gitee_search 具体介绍:ht ...

  7. 揭秘任务型对话机器人(下篇)

    本文来自专栏语言.知识与人工智能,作者腾讯知文实验室 近年来比较热门的任务型对话的研究主要集中在端到端的框架的研究,基本跟传统任务型算法框架--语言理解模块(Spoken Language Under ...

  8. 想了解任务型对话机器人,我们先从自然语言理解聊起

    摘要:本文中主要介绍对话系统中的自然语言理解模块(NLU),NLU是对话系统中非常重要的一个模块,主要包括意图识别和槽位填充. 一.引言 随着移动互联网和智能终端的快速发展,任务型对话机器人的应用越来 ...

  9. 任务型对话(一)—— NLU/SLU(意识识别和槽值填充)

    1,概述 任务型对话系统越来越多的被应用到实际的场景中,例如siri,阿里小密这类的产品.通常任务型对话系统都是基于pipline的方式实现的,具体的流程图如下: 整个pipline由五个模块组成:语 ...

最新文章

  1. SSD情何以堪!微软:扔掉你的旧PC换台新的
  2. SSM+微信小程序实现物业管理系统
  3. linux内核启动时间优化
  4. vue的mixins属性
  5. linux基本命令(49)——at命令
  6. Spring Cloud Sleuth Zipkin - (1)
  7. pre和code的区别
  8. cad结构字体_AutoCAD字体选择:如何快速选中gbcbig.shx通用字体
  9. android斗鱼app源代码,android文件管理器源码、斗鱼直播源码、企业级erp源码等
  10. android电视机清理内存,电视盒子总是内存不足?五大清理方法释放更多内存
  11. excel解决线性规划求解问题
  12. littleVGL开发(8):消息弹窗控件(lv_mbox)
  13. 计算机接口接触不良,如何处理电脑耳机插口接触不良
  14. 怎样将PDF转成JPG?PDF转换图片其实很简单
  15. C/C++中int的取值范围
  16. 如何避免“Windows Defender SmartScreen阻止无法识别的应用程序启动警告”
  17. knockout js之select
  18. 工人级无人机,现在和未来可能都不会有垄断者出现
  19. Android 表情功能的完整处理方案
  20. 计算机网络第六弹——应用层

热门文章

  1. Markowitz投资组合优化——寻找有效前沿策略分享
  2. 『摄影欣赏』20幅精美的秋天落叶风景欣赏【组图】
  3. 一. 获取access_token
  4. heic图片转换成jpg格式工具
  5. 自主可控CPU架构系列
  6. HPCC实践教程(初步)
  7. HTML5 如何实现播放多个MP3音频
  8. 理解LUA的C API的最好的学习方法。
  9. 企业编码生成系统生成6位数字防伪码
  10. SQL 怎样 远程备份数据库到本地