SIGIR 2021 | Pchatbot: 大规模个性化聊天机器人数据集
©PaperWeekly 原创 · 作者 | 金金
单位 | 阿里巴巴研究实习生
研究方向 | 推荐系统
简介
自然语言对话系统最近引起了极大的关注。由于许多对话模型是数据驱动的,因此高质量的数据集对这些系统至关重要。在本文中,作者介绍了 Pchatbot,这是一个大规模对话数据集,包含分别从微博和司法论坛收集的两个子集。
为了使原始数据集适应对话系统,作者通过匿名化、重复数据删除、分割和过滤等过程精心标准化原始数据集。Pchatbot 的规模明显大于现有的中文数据集,这可能有利于数据驱动模型。
此外,当前个性化聊天机器人的对话数据集通常包含多个角色句子或属性。与现有数据集不同,Pchatbot 为帖子和回复提供匿名用户 ID 和时间戳。这使得个性化对话模型的开发能够直接从用户的对话历史中学习隐含的用户个性。
本文的初步实验研究对几种最先进的对话模型进行了基准测试,以便为未来的工作提供比较。
论文标题:
Pchatbot: A Large-Scale Dataset for Personalized Chatbot
论文来源:
SIGIR 2021
论文链接:
https://arxiv.org/abs/2009.13284
数据集构造
本文的两个数据子集主要是通过爬取微博和司法论坛上的公开 post-response 数据,并按照如下的步骤进行处理:
匿名化:作者使用基于规则的方法或信息提取模型用占位符替换数据中的私人信息。具体来说,作者使用正则表达式来识别电子邮件、电话号码和帐号等文本,并使用 NER 模型来提取名称和地址等实体。
过滤敏感词:敏感词是通过匹配方法与精炼的敏感词表进行检测。由于敏感词在语义方面也很重要,简单地用占位符替换它们会破坏句子的完整性。因此,作者直接过滤掉所有带有敏感词的(post、response)对。
按长度过滤对话:作者清理长度小于 5 或大于 200 的对话,因为短话语往往包含有限的信息,而长话语通常有噪音。
分词:对于中文分词,作者使用 jieba 工具包。由于 jieba 是针对一般中文分词实现的,作者引入了一个法律术语列表作为 PchatbotL 中增强的额外词典。
通过一系列处理,和已有的数据集相比,本文的数据集具有显著更大的规模。
以下是具体的两个数据子集的统计信息。
基准实验
在此基础上,作者给出了基于检索和基于生成的对话模型的基准效果,为后续实验提供支持。
作者进一步分析了对话长度和训练数据多少的影响,发现对话的长度增加的确有利于模型效果的提升,而过多的训练数据可能会导致模型倾向于生成更类似的回复。
结论
在本文中,作者介绍了 Pchatbot 数据集,它分别具有开放域和司法域的两个子集,即 PchatbotW 和 PchatbotL。Pchatbot 中的所有帖子和回复都附有用户 ID 和时间戳,这极大地扩展了个性化聊天机器人的潜力。此外,Pchatbot 数据集的规模明显大于以前的数据集,这进一步增强了智能对话代理的能力。作者用几个基线模型评估 Pchatbot 数据集,实验结果证明了用户 ID 和大规模触发的巨大优势。
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
???? 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
???? 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
SIGIR 2021 | Pchatbot: 大规模个性化聊天机器人数据集相关推荐
- 10分钟构建人人都能学会的个性化聊天机器人-使用AIML(王小草博客)
本文主要介绍什么是aiml, 如何python环境安装aiml,如何使用与制作一个属于自己的聊天机器人 1 aiml初识 1.1 demo展示 用aiml写了一个简单的微信聊天机器人的demo,暂且叫 ...
- 端到端对话模型新突破!Facebook发布大规模个性化对话数据库
作者|Pierre-Emmanuel Mazare 等 译者|郝毅 编辑|Debra 出处丨 AI 前线 AI 前线导读:聊天机器人是目前非常流行的一种人工智能系统.目前大部分聊天机器人的衔接性都不是 ...
- 【PyTorch】11 聊天机器人实战——Cornell Movie-Dialogs Corpus电影剧本数据集处理、利用Global attention实现Seq2Seq模型
聊天机器人教程 1. 下载数据文件 2. 加载和预处理数据 2.1 创建格式化数据文件 2.2 加载和清洗数据 3.为模型准备数据 4.定义模型 4.1 Seq2Seq模型 4.2 编码器 4.3 解 ...
- 聊天机器人落地及进阶实战 | 公开课速记
嘉宾 | 邵浩 编辑 | suiling 来源 | AI科技大本营在线公开课 近年来,聊天机器人技术及产品得到了快速的发展.聊天机器人作为人工智能技术的杀手级应用,发展得如火如荼,各种智能硬件层出不穷 ...
- 《预训练周刊》第21期:FlipDA:有效且稳健的数据增强小样本学习、开放域低资源适应的生成式聊天机器人...
No.21 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第21期&l ...
- SIGIR 2021 | 推荐系统中的多行为建模
©原创 · 作者 | 黄超.夏良昊 单位 | 香港大学计算机学院 研究方向 | 数据挖掘, 信息检索 研究背景 个性化推荐系统(Recommender Systems)作为解决信息过载的有效技术,已经 ...
- facebook对话链接_Facebook已开源其最新的聊天机器人Blender
它是一种更具人性化的聊天机器人,并击败了Google成为世界上最好的聊天机器人 > Photo by Alex Haney on Unsplash 4月29日,Facebook AI Resea ...
- MILABOT:基于深度强化学习打造聊天机器人
下面,我们介绍论文的主要思想和创新之处. 系统概览 早期的对话系统主要基于由专家人工制定的状态和规则.而现代对话系统通常使用组合学习的架构,将手工定制状态和规则组合到统计机器学习算法中.由于人类语言的 ...
- SIGIR 2021 | 推荐系统相关论文分类整理
© 作者|范欣妍 机构|中国人民大学高瓴人工智能学院 导师|赵鑫教授 研究方向 | 推荐系统 导读 ACM SIGIR 2021是CCF A类会议,人工智能领域智能信息检索( Information ...
最新文章
- 别名、浅复制与深复制
- 如何让 Timer 在特定时间点触发?
- Java编程技巧之单元测试用例编写流程
- Spring MVC Controller 的同一个 URL 请求,根据逻辑判断返回 JSON 或者 HTML 视图
- js 获取当前gmt时间_javascript-如何将日期转换为GMT?
- 为什么有的人有心事就容易失眠?
- Pure-Ftp:基于虚拟账号的FTP服务器
- 精通python工资高吗-2020年10月程序员工资再创新高
- JAVA程序设计基础(第六版)第六章习题 6.13
- 一、Multisim软件介绍
- 个人配置--常用软件保护色设置
- 【githubshare】一款开源的卡通头像生成器,可自定义发型、眼镜、肤色、衣着、嘴型等属性
- Adapter与AdapterView
- Winxp U盘无法复制磁盘写保护解决办法。
- kodbox(可道云)Windows部署教程
- 7个等级 容灾等级_详细分析容灾备份的区别以及容灾的级别分类
- DOTA英雄 精美图片 大集合
- LTE网络-EPC(分组核心网)
- C语言中:的其中一种作用
- 数学-线性代数3(相关性、基、维数、四个基本子空间)
热门文章
- centos sudo不能运行_Linux操作系统中sudo的使用和sudoers配置
- c++程序设计原理与实践_课程思政水资源系统优化原理与方法课程思政元素的探索...
- jmeter学习笔记(十三)debug调试工具
- python 字典的一些简单操作
- 《Learning.Python》pdf
- 【python】并行化的又一种思路
- 在写移动端时,a标签或者input标签等 在手机上点击背后会有阴影的解决办法
- 什么时候加上android.intent.category.DEFAULT和LAUNCHER
- windows live writer向cnblog发布文章设置(转)
- python连接池原理_python redis之连接池的原理