丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

一直以来,自回归语言模型(Autoregressive model,AR)在文本生成任务中表现都相当出色。

现在,DeepMind通过教自动编码器学会“自我纠正”,提出了一个叫做“圣代”SUNDAE)的非自回归模型。

它不仅能在WMT’14英德互译任务中取得非自回归模型中的SOTA,还表现出与自回归模型相当的性能。

更厉害的是,还能轻松做到自回归模型做不到的事儿——文字补全

 *部分即为模型要补的文字

要知道,非自回归模型一直不被看好。

而这个“圣代”的文字补全功能,也为人类和机器共同编辑、创作文本提供了新的途径。

非自回归语言模型“圣代”

“圣代”全名“逐步展开降噪自动编码器”(Step-unrolled Denoising Autoencoder,SUNDAE),作为一种新的文本生成模型,它不依赖于经典的自回归模型。

与降噪扩散技术(denoising diffusion)类似,“圣代”在训练期间采用展开降噪(unrolled denoising),将一系列token重复应用,从随机输入开始,每次都对其进行改进,直至收敛。

这就是所谓的“自我纠正”过程。

下面用一张图来说明一下降噪和展开降噪的区别。

第一行为原始文本,它被随机“污染”(corrupt)后产生新的文本(第二行),其中绿色的token代表“未污染”文本,红色代表“污染”文本。

这个中间文本再通过降噪(从生成模型中采样),生成底部的又一个“污染”文本。

标准降噪自动编码器只学习从中间文本到顶部文本的映射,逐步展开降噪自动编码器(“圣代”)则会学习从底部到顶部的映射。

而在文本生成期间,网络遇到的大多数文本都并非像上图中间那样,而是底部那种,所以展开降噪是非常有用的。

此外,研究人员还提出了一个简单的改进算子,它能实现比降噪扩散技术收敛所需的更少的迭代次数,同时在自然语言数据集上定性地生成更好的样本。

直白的说,“圣代”采用的方法让文本合成的质量和速度都变得可控了。

在机器翻译和文本生成任务上表现如何?

下面就来看看“圣代”的具体表现。

研究人员首先在机器翻译基准上评估“圣代”。

使用BLEU分数作为衡量标准,将“圣代”在WMT’14德英互译任务上的翻译质量与自回归模型(AR)和非AR模型进行比较。

结果发现,在不使用序列级知识蒸馏等技术的情况下,“圣代”的性能几乎与AR模型相当,并且打败了所有非AR模型。

接着是对“圣代”在文本生成任务上的评估。

研究人员在大型高质量公开数据集 Colossal Clean Common Crawl (C4) 上训练“圣代”。

模型一共包含335M参数,24层,embedding size为1024 , hidden size为4096 , 以及16 个attention head,使用bacth size为4096的Adam optimizer训练了多达40万步。

最终生成的文本如下,未经cherry pick

这10句里面,除了第4,都挺合理。

不过由于C4数据集来自网络,所以无论是训练集还是生成的最终结果,换行符都挺多。

此外,由于“圣代”模型的非自回归性,研究人员也测试了它的文本“修复”能力

要知道,这对于只能从左到右按序生成的AR模型来说根本就办不到

结果如下(cherry-pick过):

  • C4数据集

  • GitHub上的Python程序组成的数据集

大家觉得这效果如何?语法和逻辑似乎都没有问题。

更多数据和内容欢迎戳下方链接。

论文地址:

https://arxiv.org/abs/2112.06749

DeepMind新语言模型SUNDAE:教自动编码器学会「自我纠正」,WMT14英德互译任务获SOTA...相关推荐

  1. Python 小工具:调用「百度翻译API」实现英汉互译及多语言翻译

    Python 小工具:调用「百度翻译 API」实现英汉互译及多语言翻译 API 简介 过程详解 完整代码 结果展示 附:官方 Demo - Python 2 版本 Python 小工具:调用「百度翻译 ...

  2. Vue3 Typescript + Axios 全栈开发教程:手把手教你写「待办清单」APP

    本文完整版:<Vue3 Typescript + Axios 全栈开发教程:手把手教你写「待办清单」APP> Vue3 Typescript + Axios 全栈开发教程 前端 Vue3 ...

  3. 浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏

    选自arXiv, 机器之心编译 人工智能已在围棋这样的完美信息游戏上实现了远超人类的水平,但在信息未完全披露的多人对战游戏上还无法战胜人类.近年来,OpenAI 和 DeepMind 在 DOTA2 ...

  4. 巨头押注的全屋智能,正在驱动海信、华为、小米们「自我革命」

    文丨智能相对论 作者丨陈选滨 从近些年的热议频频到今年的蓄势待发,"全屋智能"这一概念一路高歌,成为了市场的"宠儿". 今年以来,各大厂商动作频频.海信刚刚发布 ...

  5. 如何摆脱「自我否定」状态

    大家好,我是Z哥. 你最近正处于自我否定的状态吗?如果不是的话,回想一下最近的一次处于这种状态是什么时候?当时的感受如何?以及,最终是如何走出这个状态的? 不着急,给你 1 分钟回忆一下. 其实这种状 ...

  6. 不用地图如何导航?DeepMind提出新型双路径强化学习「智能体」架构

    来源:deepmind.arXiv 作者:Piotr Mirowski.Matthew Koichi Grimes.Mateusz Malinowski.Karl Moritz Hermann.Kei ...

  7. 【强化学习】不用地图如何导航?DeepMind提出新型双路径强化学习「智能体」架构

    来源:deepmind.arXiv 作者:Piotr Mirowski.Matthew Koichi Grimes.Mateusz Malinowski.Karl Moritz Hermann.Kei ...

  8. Waymo首次公开自动驾驶技术:让AI学会「危机想象力」

    机器之心报道 机器之心编辑部 Waymo 的自动驾驶出租车「Waymo One」已经上线了,现在美国亚利桑那州凤凰城的居民可以像叫个滴滴一样用手机 app 打来一辆自动驾驶汽车.这些高度智能化的无人车 ...

  9. 机器人大牛 Daniela Rus 领衔!MIT 新算法实现软体机器人「本体感知」

    本文转自雷锋网,如需转载请至雷锋网官网申请授权. 说起软体机器人,或许很多人都不觉得陌生了. 软体机器人的发展离不开包括材料学.机器人学.生物力学.传感与控制在内的多学科进步,近年来相关学科迅速发展, ...

最新文章

  1. 通用流水线处理器技术参数
  2. 关于MySQLdb连接数据的使用(插入数据——使用前端页面的方式进行可视化)
  3. IntelliJ IDEA中JAVA连接MYSQL
  4. JDBC连接数据库总结
  5. Java 集合系列(4): LinkedList源码深入解析1
  6. python批量下载文件只有1kb_Python 实现批量从不同的Linux服务器下载文件
  7. x-shell 通过堡垒机连接 ssh多个机器 自动化脚本
  8. 强大的 pdf 编辑器 —— Acrobat
  9. android应用开发(26)---Parcelables 和 Bundles
  10. java8中一个极其强悍的新特性Stream(非常实用)
  11. .net session超时设置 sessionState的相关属性
  12. 分享一些很小众但是很实用的软件
  13. 进销存管理系统源码VS2015
  14. 热敏打印机ESCPOS指令封装类,票据打印从此轻松,佳博系列实测通过
  15. 【电脑控制手机屏幕】windows11、10自带投屏功能,三步解决
  16. js做一个碎片化轮播图酷炫特效【含免费源码获取】
  17. SpringCloud学习笔记7——初级篇之服务降级
  18. 与六年测试工程师促膝长谈,他分享的这些让我对软件测试工作有了全新的认知~
  19. 最新的三星android版本号,三星率先公布Android 12/13升级机型名单,可惜S9/Note9被抛弃...
  20. 每次关机的时候总显示[742.602384]system halted,关不了机,只能强制关机,解决方法

热门文章

  1. Java中的异常处理:何时抛出异常,何时捕获异常?
  2. 如何在Angular.js选择框中使用默认选项
  3. Java - 将整数转换为字符串[duplicate]
  4. 在Bash中将字符串拆分为数组
  5. 如何在提交前撤消#39;git add#39;?
  6. SAP ABAP里数据库表的Storage Parameters从哪里来的
  7. 新手零基础学习Python第一步,搭建开发环境!
  8. 针对Android Tv的自定义RecyclerView2 0横竖向连动
  9. CentOS6.5下Redis安装与配置
  10. Lync Server 2010迁移至Lync Server 2013故障排错Part1:缺少McsStandalone.msi