铜灵 发自 凹非寺
量子位 出品  | 公众号 QbitAI

这一次AI自己给AI论文生成了一次摘要。

今天,一个可为长文自动生成总结的Transformer语言模型论文在推特火了起来。

细心了网友看到论文摘要结尾,才发现一个斜体备注中写着:上面的摘要不是作者写的,而是由研究中展示的一个模型自动生成的。

以假乱真的生成质量,让不少网友大吃一惊。并且,其生成方式也不一般:

研究证明了,即使没有复制机制,Transformer语言模型在总结长篇科学文章方面也非常有效,并且效果优于传统的seq2seq方法。

并且,与先前使用复制机制的研究相比,新方法生成的摘要更全,在用于评估自动生成的摘要和翻译水平的ROUGE评测上,获得了更高的分数。

这项研究被OpenAI研究科学家、牛津大学人类未来研究所研究员Miles Brundage的推荐和转发,不到一天时间获赞近2000,网友戏称为这是一项“摘要图灵测试”。

还有网友表示,在未来十年内,我们或许能看到第一篇transformer写出的研究论文了。

所以,这个让网友大吃一惊的总结摘要生成模型,到底是如何以假乱真的?

请看摘要↓

非复制机制

我们提出了一种新的方法,通过神经摘要式总结,可以为篇幅超过上千字的长文档自动生成摘要。

我们展示了一种在生成总结前的简单提取步骤,在执行生成摘要任务前,会根据相关信息,将其用于Transformer语言模型,帮助模型进行条件设置。

实验结果表明,这个步骤显著提高了总体结果。我们还证明了,与之前使用复制机制(copy mechanism)的工作相比,这种方法生成了抽象的总结,并且还能取得更高的Rouge分数。

此前,摘要提取方法大多依据的是序列到序列(seq2seq)的学习方法,将关键词识别定义为生成问题,输出时将关键短语看作为词序列。

为了这其中的控制参数数量只会选取其中出现频率较高的词汇,于是相对低频且重要的词汇就会在提取过程中被遗漏,于是就诞生了“复制机制”。

通过复制机制,模型解码器的部分隐藏状态当成特定的位置,不通过生成过程定义关键词,而是直接复制。

这样一来,就能保留原始文章中的重要信息了,进而在输出端生成出摘要。

而在这篇论文中提到,不通过复制机制也可以准确提取重点信息。这是怎么做到的?

Transformer语言模型

在论文On Extractive and Abstractive Neural Document Summarization with Transformer Language Models中,研究人员具体介绍了模型的架构。

这个模型提取科学论文的摘要是分阶段的。

首先,句子指针网络(pointer network)从论文中提取出重要信息。

接下来,这些提取过的句子会随着完整文章一起按照顺序进行排列:引言、抽取的句子、摘要和论文其他内容。Transformer语言模型就是在以这种格式组织的论文上进行训练的。

在推理过程中,引言和提取的句子将作为上下文提供给语言模型,最终生成摘要。在新闻和专利领域,引言部分将被全文替代。

与此前大多数神经抽象概括方法不同,这种方法没有使用带有显式编码器和解码器的seq2seq公式来生成单词。

具体来说,研究人员使用单个类似GPT的Transformer 语言模型(TLM)进行训练,在推理阶段根据文档从语言模型中生成摘要。

研究人员将这个任务一分为二,即提取步骤(extractive step)和抽象步骤。

为了处理超过几千个单词的超长文档,他们先使用两个不同的分层文档模型对句子进行提取,一个基于指针网络,另一个基于句子分类器,这样的结构保证在生成摘要前更好地调整Transformer语言模型的相关信息。

研究人员选取了四种不同的大型长文档摘要数据集,分别为arXiv、PubMed 、bigPatent和Newsroom,对模型进行测试,并用Rouge指标进行测试。

无论是针对arXiv上的科学论文:

还是NewsRoom上的新闻:

甚至是PubMed上的生物医学方面的论文:

还是130万份美国专利文献记录bigPatent :

新方法TLM均优于此前摘要提取的baseline,并超越了先前提取结果。

作者介绍

这篇论文的共同一作共有三位,均来自Element AI。

包括蒙特利尔学习算法研究所的Sandeep Subramanian,Raymond Li和蒙特利尔大学的Jonathan Pilault及Christopher Pal。

Element AI想必大家不会陌生,这是图灵奖得主、蒙特利尔大学计算机系教授Yoshua Bengio创办的创业孵化器,帮助来自蒙特利尔大学和McGill大学的AI创业者施展拳脚。

传送门

On Extractive and Abstractive Neural Document Summarization with Transformer Language Models

https://arxiv.org/abs/1909.03186

加入社群 | 与优秀的人交流

小程序 | 全类别AI学习教程

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

AI给AI论文写了个摘要,网友戏称为“摘要通过图灵测试”,推特点赞上千相关推荐

  1. 熬夜写代码,不如换女装入 GitHub 获上千 Star?

    作者 | 琥珀 出品 | AI科技大本营(ID: rgznai100) 程序员如何以合规手段快速获得 GitHub 上千 Star? 新年刚过,GitHub Trending 上一个名为"D ...

  2. 熬夜写代码,不如换女装入GitHub获上千Star?

    作者 | 琥珀 出品 | AI科技大本营(ID: rgznai100) 程序员如何以合规手段快速获得 GitHub 上千 Star? 新年刚过,GitHub Trending 上一个名为"D ...

  3. 6个月为50篇AI论文写摘要,网友:这有啥,我曾被要求1.5小时内复现一篇论文...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨机器之心 编辑丨极市平台 导读 快速阅读论文是研究人员不可或缺 ...

  4. 如何写/审AI领域的论文【VALSE Webinar】Panel实录

    编者按:随着人工智能的飞速发展,相关领域学术会议和期刊的投稿量剧增.面对大量良莠不齐的学术论文,研究人员又该秉承什么理念来撰写.评审相关领域的学术论文?以及在"破四唯".工业界研究 ...

  5. ​原创 | AI顶会论文很多附带源代码?不少是假开源!

    作者:林嘉亮审校:陈之炎本文约3500字,建议阅读10分钟相当多的作者没有向用户提供足够详细的文档,导致了一些重要信息的缺失. 看到一篇绝佳的AI论文,非常期待作者能提供源代码,全文搜索HTTP,可惜 ...

  6. 独自一人,怒发AI顶会论文

    长短作为曾经熬通宵肝论文的过来人,小编要吐槽,论文写久了真的会头秃,尤其是确定选题和找创新点.idea的时候,是薅头发事件的高发阶段. 对于那些导师放养.在自己的摸索中磕磕绊绊前行的科研新手们, 焦虑 ...

  7. 研究生论文致谢频用诗词!导师:摘要都写不通你还敢搞文学?

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 本文转载自:募格学术 | 参考资料:微博.募格课堂.白鹿视频等. ...

  8. 年度盘点!必看AI顶会论文、Github高星项目大合集(附链接)

    目前,国外计算机界评价学术水平主要是看在顶级学术会议上发表的论文,特别是在机器学习.计算机视觉和人工智能领域,顶级会议才是王道.本期我们盘点了2019年人工智能领域的顶会,如最核心的顶会AAAI.IJ ...

  9. AI自动评审论文,CMU这个工具可行吗?

    视学算法报道 作者:魔王.杜伟 转载自公众号:机器之心 近年来,各大学术顶会的论文投稿量暴增,这使得论文评审的工作量大大增加.那么,有没有可能自动生成论文的评审结果呢?最近,CMU 研究者对此展开了探 ...

最新文章

  1. Fisher Vector(FV)向量
  2. 中国抛光打磨机器人行业发展方向分析与十四五战略规划研究报告2022年版
  3. 【实验手册】使用Visual Studio Code 开发.NET Core应用程序
  4. 动手学servlet(四) cookie和session
  5. 【译】索引进阶(八):SQL SERVER唯一索引
  6. 编程中常见的安全算法
  7. 拓端tecdat|R语言对MNIST数据集分析:探索手写数字分类
  8. pandas内置数据集_如何用pandas划分数据集实现训练集和测试集
  9. excel使用数据字典显示数据——宏
  10. 多元统计分析基于r课后答案_应用多元统计分析课后答案.doc
  11. eclipse-登录注册web项目-练
  12. 杨春立:基于数字孪生的智慧城市顶层设计探索与实践...
  13. 360抢票王验证码自动识别真的那么牛吗?
  14. 小技巧给网页减肥 让网站访问提速
  15. 新年,未知的开始---Created by 思贤泪自潸
  16. Rapid SCADA中文使用说明书(一)
  17. 记一次过掉rar未注册版,总是弹出一个烦人的网页对话框的实践
  18. 获取IPhone相册中图片的方法(ASSets)
  19. Js逆向教程-10常见代码混淆
  20. java 连接 websphere_本地java类访问websphere的JNDI

热门文章

  1. linux 设置与网络同步的时间
  2. 设计模式学习笔记-原型模式
  3. 解决win2003下IIS中建立ASP网站出现500内部错误的方法(BUG)
  4. 《数字城堡》大片制作
  5. Xamarin Essentials教程剪贴板Clipboard
  6. Xamarin Visual Studio不识别JDK路径
  7. 验证Xcode真伪的方法,来自苹果官网
  8. iOS 9应用开发教程之多行读写文本ios9文本视图
  9. Kali Linux 安全渗透教程第三更1.2 安全渗透所需工具
  10. candence的图纸大小设置_在Orcad Cadence中设置原理图页码