点击上方“AI遇见机器学习”,选择“星标”公众号

重磅干货,第一时间送达

来自:机器之心

和 AI 进行无障碍的对话,是什么样的体验?你或许能够在这篇文章里找到答案!百度全新发布 PLATO-XL,参数达到了 110 亿,超过之前最大的对话模型 Blender,是当前最大规模的中英文对话生成模型,并再次刷新了开放域对话效果。

很难相信,以上是 AI 与人交流的真实对话记录。近日,百度发布新一代对话生成模型 PLATO-XL,一举超过 Facebook Blender、谷歌 Meena 和微软 DialoGPT,成为全球首个百亿参数中英文对话预训练生成模型,再次刷新了开放域对话效果,打开了对话模型的想象空间。

尽管大规模参数的模型在自然语言处理领域如雨后春笋出现,并且在多个自然语言理解和生成任务上取得了很多成果,但多轮开放域对话的主动性和常识性问题一直无法很好解决。百度 NLP 于 2019 年 10 月预发布了通用领域的对话生成预训练模型 PLATO,在 ACL 2020 正式展示。2020 年升级为超大规模模型 PLATO-2,参数规模扩大到 16 亿,涵盖中英文版本,可就开放域话题深度畅聊。如今,百度 全新发布 PLATO-XL,参数规模首次突破百亿达到 110 亿,是当前最大规模的中英文对话生成模型。

  • 论文名称 : PLATO-XL: Exploring the Large-scale Pre-training of Dialogue Generation

  • 论文地址:https://arxiv.org/abs/2109.09519

PLATO-XL,全球首个百亿参数对话预训练生成模型

让机器进行像人一样有逻辑、有知识、有情感的对话,一直是人机智能交互的重要技术挑战;另一方面,开放域对话能力是实现机器人情感陪伴、智能陪护、智能助理的核心,被寄予了很高的期望。

预训练技术大幅提升了模型对大规模无标注数据的学习能力,如何更高效、充分的利用大规模数据提升开放域对话能力,成为主流的研究方向。

从谷歌 Meena、Facebook Blender 到百度 PLATO,开放域对话效果不断提升。在全球对话技术顶级比赛 DSTC-9 上,百度 PLATO-2 创造了一个基础模型取得 5 项不同对话任务第一的历史性成绩。

如今,百度发布 PLATO-XL,参数达到了 110 亿,超过之前最大的对话模型 Blender(最高 94 亿参数),是当前最大规模的中英文对话生成模型,并再次刷新了开放域对话效果。

百度 PLATO 一直有其独特的从数据到模型结构到训练方式上的创新。PLATO-1, PLATO-2 不仅刷新了开放域对话效果,也具有非常好的参数性价比,即在同等参数规模下效果超越其他模型。PLATO-XL 在参数规模达到新高的同时,其对话效果也不出意外地再次达到新高。下面,我们将展开介绍 PLATO-XL 模型的核心技术特点。

PLATO-XL 模型:更高参数性价比,大幅提升训练效果

PLATO-XL 网络架构上承袭了 PLATO unified transformer 结构,可同时进行对话理解和回复生成的联合建模,参数性价比很高。通过灵活的注意力机制,模型对上文进行了双向编码,充分利用和理解上文信息;对回复进行了单向解码,适应回复生成的 auto-regressive 特性。此外,unified transformer 结构在对话上训练效率很高,这是由于对话样本长短不一,训练过程中 padding 补齐会带来大量的无效计算,unified transformer 可以对输入样本进行有效的排序,大幅提升训练效率。

为了进一步改善对话模型有时候自相矛盾的问题,PLATO-XL 引入了多角色感知的输入表示,以提升多轮对话上的一致性。对话模型所用的预训练语料大多是社交媒体对话,通常有多个用户参与,表述和交流一些观点和内容。在训练时,模型较难区分对话上文中不同角度的观点和信息,容易产生一些自相矛盾的回复。针对社交媒体对话多方参与的特点,PLATO-XL 进行了多角色感知的预训练,对多轮对话中的各个角色进行清晰区分,辅助模型生成更加连贯、一致的回复。

PLATO-XL 包括中英文 2 个对话模型,预训练语料规模达到千亿级 token,模型规模高达 110 亿参数。PLATO-XL 也是完全基于百度自主研发的飞桨深度学习平台,利用了飞桨 FleetX 库的并行能力,使用了包括 recompute、sharded data parallelism 等策略,基于高性能 GPU 集群进行了训练。

PLATO-XL 效果:多种类型、多种任务,对话效果全面领先

为了全面评估模型能力,PLATO-XL 与当前开源的中英文对话模型进行了对比,评估中采用了两个模型针对开放域进行相互对话(self-chat)的形式,然后再通过人工来评估效果。PLATO-XL 与Facebook Blender、微软 DialoGPT、清华 EVA 模型相比,取得了更优异的效果,也进一步超越了之前 PLATO-2 取得的最好成绩。此外,PLATO-XL 也显著超越了目前主流的商用聊天机器人。

除了开放域闲聊对话,模型也可以很好的支持知识型对话和任务型对话,在多种对话任务上效果全面领先。

PLATO 系列涵盖了不同规模的对话模型,参数规模从 9300 万到 110 亿。下图可以看出,模型规模扩大对于效果提升也有显著作用,呈现较稳定的正相关关系。

PLATO-XL 不管是在英文,还是中文上的多轮对话,模型都可以与用户进行有逻辑、有内容且有趣的深入聊天。

百度 PLATO-XL 模型英文对话效果

百度 PLATO-XL 模型中文对话效果

结语

让机器用自然语言与人自由地交流,是人工智能的终极目标之一。百度 PLATO-XL 的发布,是开放域对话在大模型上的一次深入探索。相信在不久的将来,更加强大的对话预训练模型将会陆续发布。未来,对话模型可以更加拟人、更有知识。

百度开放接口服务供大家体验最新中文 PLATO 百亿模型的效果,对智能对话感兴趣的小伙伴一定不能错过。

更多的 PLATO 技术交流或应用需求可发送邮件到:plato@baidu.com;未来 PLATO 技术还将开放更多能力,敬请关注百度大脑 UNIT 平台。

百度大脑 UNIT:https://ai.baidu.com/unit/home

英文体验方式:https://nlp.baidu.com/special/plato/englishDemo

中文体验方式:扫码关注 “百度 PLATO” 微信公众号,进行深度畅聊。

欢迎关注我们,看通俗干货

超越Facebook、谷歌、微软,百度发布全球首个百亿参数对话预训练生成模型PLATO-XL...相关推荐

  1. 看MindSpore加持下,如何「炼出」首个千亿参数中文预训练语言模型?

    摘要:千亿参数量的中文大规模预训练语言模型时代到来. 本文分享自华为云社区< MindSpore开源框架加持,如何「炼出」首个千亿参数.TB级内存的中文预训练语言模型?>,原文作者:che ...

  2. 重磅发布 | 全球首个云原生应用标准定义与架构模型 OAM 正式开源

    作者: OAM 项目负责人 导读:2019 年 10 月 17 日,阿里巴巴合伙人.阿里云智能基础产品事业部总经理蒋江伟(花名:小邪)在 Qcon 上海重磅宣布,阿里云与微软联合推出开放应用模型 Op ...

  3. 透视鹏程.盘古:首个2000亿参数中文大模型是怎样炼成的?

    2021-05-19 10:21:00 机器之心原创 机器之心编辑部 给足算力和数据,就能训练出千亿参数的大模型?事实没有那么简单. 「70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最 ...

  4. 李彦宏今晚将开启百度直播首秀;4G用户使用5G业务无需换卡;三星发布全球首款5G量子手机 | EA周报...

    EA周报 2020年5月15日 每个星期7分钟,元宝带你喝一杯IT人的浓缩咖啡,了解天下事.掌握IT核心技术. 热点大事件 三年亏了近300亿,乐视网正式退市 5月14日下午,深交所正式发布公告乐视网 ...

  5. 中国率先发布全球首份车路协同技术白皮书!清华百度联手,突破自动驾驶规模落地瓶颈...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 如果抛出这样一个问题:在自动驾驶领域,中国有啥与众不同? 不少业内人士都会给出这样一个答案:车路协同. 你若尚不了解这是怎样的技术,现在,一 ...

  6. 超越英伟达的,不会是另一款GPU?这家深圳公司发布全球首款数据流AI芯片

    2020年6月23日,鲲云科技在深圳举行产品发布会,发布全球首款数据流AI芯片CAISA,定位于高性能AI推理,已完成量产. 鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破,较同类产品在芯 ...

  7. 华为发布全球首款 5G 汽车通讯硬件;今日头条系产品大裁员;三星手机推迟上市 | 极客头条...

    「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道.风里雨里,我们将每天为朋友们,播报最新鲜有料的新闻资讯,让所有技术人,时刻紧跟业界潮流. 快讯速知 华 ...

  8. 本周AI热点回顾:百度推出全球首个mRNA疫苗不稳定性解决方案、性能提升20倍:英伟达GPU旗舰A100

    01 百度推出全球首个mRNA疫苗不稳定性解决方案LinearDesign 新冠疫情爆发后,RNA设计领域世界知名专家.斯坦福大学生物化学系Rhiju Das教授关注到疫苗研发存在的一个非常棘手的问题 ...

  9. 联发科抢闸发布全球首款5G手机芯片,5G时代要重拾辉煌?

    5月29日,在台北电脑展Computex2019上,全球三大手机芯片企业之一的联发科正是发布了一款5G芯片,集成了它此前发布的5G调制解调器Helio M70,这也是全球第一款5G手机芯片,并称已向手 ...

最新文章

  1. Android中Context 的理解
  2. shell 中| || () {} 用法以及shell的逻辑与或非
  3. SQL数据定义、查询、更新+空值的处理 实践学习报告
  4. .git文件夹_将Git存储库中的文件夹转换为全新的存储库
  5. 自己制作精美的App Store 软件截屏
  6. php序列化函数输入0存不了,php序列化函数的区别
  7. Office Open XML学习(1)-创建excel文档,并向单元格中插入字符串
  8. 每个程序员都必须搞懂的抽象类和接口的含义以及区别
  9. php基本语法(简略篇)
  10. python实现直方图规定化
  11. 【Scratch案例实操】scratch西游记师徒谁人气高 scratch编程案例教学 scratch创意编程 少儿编程教案
  12. 看到大量状态SYN_RCVD的连接,可能发生的原因是什么?
  13. 微信小程序 23 播放音乐页
  14. mysql中db的名词解释_数据库常用名词解释大全
  15. 深度诗歌阅读:你永远是个孩子
  16. FP6276兼容芯片可过EMI认证测试
  17. Gradient Harmonized Single-stage Detector
  18. 数据分析、数据挖掘、机器学习实习面经总结
  19. python元组拆包
  20. 阿里云linux系统目录结构

热门文章

  1. Spring Boot Web Error Page处理
  2. Rowhammer漏洞致“比特位翻转”,如何解决?
  3. HTTP详解(1)-工作原理【转】
  4. JAVASE初级笔记
  5. 我的Android进阶之旅------Android关于TextWatcher的初步了解
  6. Mongodb的范式化和反范式化
  7. (LeetCode 203)Remove Linked List Elements
  8. Spring3.2.8+Mybatis3.2.6 多数据源基于BaseDAO的配置
  9. samba+quota配置
  10. linux如何添加route,Linux主机添加路由 route(示例代码)