点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

行早 发自 凹非寺
量子位 报道 | 公众号 QbitAI

今年NeurIPS大会论文已经放榜,终于可以学习一下大佬们的研究了。

不过,打开电脑,随便点开一篇,就是一大段密密麻麻的文字糊脸……只是摘要就有这么长,还有2300多篇,这工作量实在劝退。

能不能让论文们都做一道经典的语文题:“用一句话概括全文内容”?

还真可以。

最近Reddit上的一位博主发布了一篇今年的NeurIPS大会论文汇总,其中的每篇论文下方(红框中)都有一句由AI生成的高度凝练的总结。

而这款AI文本分析软件,其实就是东京工业大学团队开发的Paper Digest

它号称能帮你把论文阅读时间减少到3分钟:

除了总结论文内容以外,它还可以筛选出已经发布代码的论文。

同样,这次NeurIPS大会上的200多篇已发布代码的文章也被汇总了出来(可能会有疏漏)。

点击“code”,就可以直接跳转到相应的GitHub页面。

AI如何做好概括题

那这个AI文本分析神器应该怎么用呢?

很简单,先打开Paper Digest的官网(见文末链接)。

完成一些注册工作后,滑到一个搜索框的界面:

在这个搜索框里填上你要总结概括的论文的DOI号。

DOI号就像论文的身份证号,是独一无二的。以随便打开的一篇论文为例,它长这样(红框中即为DOI号):

填完之后,点击“Digest”就开始总结了:

只需几秒钟,就会有一句话的总结输出,你也可以选择一个最合适反馈给Paper Digest,帮他们丰富数据库。

除了输入DOI号,如果你有本地的论文PDF文件,也可以直接导入。

是不是很方便?

其实这样方便好用的模型还不止一种。

比如,在一款免费学术搜索引擎Semantic Scholar里,也加入了一个类似的高度概括AI:TLDR。

TLDR(Too Long,Don’t Read),其实就是太长不看的意思……

在Semantic Scholar上搜索论文时,带有TLDR(红框)标志的就是AI生成的一句话总结。

具体到方法原理上,我们不妨以TLDR为例一起来看看。

举个例子,下图中上边的格子中是摘要,简介,结论中相对重要的段落和句子。TLDR会标记出突出的部分,然后组合成一个新的句子。

它的训练逻辑也很容易理解。

简单来说,就是先确定一个标准答案,然后把标准答案打乱,再让TLDR尝试复原。

这和人类提炼概括的过程也很像。

概括本身也需要忽视一些干扰,然后提取出最重要的部分。

所以在训练之前要准备两个数据库,也就是标准答案:一个是SciTLDR,它包含接近2000篇计算机科学相关论文,每篇论文都有一个最好的总结。

另一个是论文-标题对数据库。由于标题中一般有很多重要的语句,对生成TLDR来说很有帮助。

将这两个数据库分别加上控制码“<TITLE>”和“<TLDR>”之后进行混合,送入BART模型。

最后的BART模型是一个基于Transformer的预训练sequence-to-sequence去噪自编码器,它的训练步骤主要有两步:

首先用任意噪声破坏函数文本,相当于把标准答案打乱。

然后让模型学习重建原来的文本。

这整个学习策略就是CATTS。

来看看效果如何。

下图中TLDR-Auth是论文作者本人写的总结,TLDR-PR是本科学生读完论文写的总结。

BART和CATTS分别是原有模型和CATTS模型给出的总结。

从重合度看起来效果还是不错的。

相关推荐还需下功夫

不过,不论是TLDR还是Paper Digest,都有不完善的地方。

TLDR只针对计算机科学的论文进行了总结。

而对于Paper Digest,网友表示它虽然概括做得很好,但是相关推荐实在是不行,今后仍需改进。

而且Paper Digest并不适用于所有论文。

目前,它只对来源于开放获取期刊的论文或者本地PDF文件导入的论文有效。

但是不论哪种文本分析AI,都可以快速获取论文高度凝练的概括信息。

如果大家想快速了解今年NeurIPS大会的论文情况,可以从文末链接中找到这次的汇总。

参考链接:

[1]https://www.reddit.com/r/MachineLearning/comments/r0gnej/r_one_sentence_highlight_for_every_neurips2021/
[2]https://aclanthology.org/2020.findings-emnlp.428.pdf
[3]https://www.paperdigest.org/2021/11/neurips-2021-highlights/
[4]https://www.paper-digest.com/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

点个在看 paper不断!

3分钟看完一篇论文,这个AI文本生成模型把今年NeurIPS 2300+篇总结了个遍相关推荐

  1. 一周 AIGC 丨谷歌正面反击 GPT-4,Claude 一分钟看完万字长文,Stability AI 发布文生动画工具...

    AIGC 再进化,谷歌在 2023 年 I/O 开发者大会上宣布面向所有用户开放 MusicLM 模型,输入文字描述即可生成音乐.GPT4 最强对手 Anthropic Claude 史诗升级,百页资 ...

  2. 花1分钟看完这篇文章,保证你立马学会微信公众号发文章!

    原标题:花1分钟看完这篇文章,保证你立马学会微信公众号发文章! 做微信公众号的不会发文章?我想这句话翻译过来应该是,如何发布一篇高质量的文章才对. 比如我在微信公众号发布一篇文章,直接就用微信公众号自 ...

  3. 计算机考试不用输入扩展名吗,本周末的 计算机等级考试,如果不想考0分,一定要花2分钟看完...

    原标题:本周末的 计算机等级考试,如果不想考0分,一定要花2分钟看完 嗨喽~下午好!我是超甜的小虎 泰戈尔的爱情诗<世上最远的距离>里有一段"世上最远的距离不是生与死的距离,而是 ...

  4. 五分钟看完 Linux 重点知识,建议收藏!

    写在前面 我们都知道Linux是一个支持多用户.多任务的系统,这也是它最优秀的特性,即可能同时有很多人都在系统上进行工作,所以千万不要强制关机. 同时,为了保护每个人的隐私和工作环境,针对某一个文档( ...

  5. 绝悟之后再超神,腾讯30篇论文入选AI顶会ACL

    作者 | 马超 责编 | Carol 出品| AI科技大本营(ID:rgznai100) 封图 | CSDN 付费下载于东方 IC 近日,国际计算语言学协会年会ACL在官网(https://www.a ...

  6. 今日头条李磊等最新论文:用于文本生成的核化贝叶斯Softmax

    译者 | Raku 出品 | AI科技大本营(ID:rgznai100) 摘要 用于文本生成的神经模型需要在解码阶段具有适当词嵌入的softmax层,大多数现有方法采用每个单词单点嵌入的方式,但是一个 ...

  7. 《预训练周刊》第14期:World-GAN:Minecraft 世界的生成模型、CMU博士论文探究可控文本生成...

    No.14 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第14期&l ...

  8. 15分钟看完:悉尼科技大学入选 CVPR 2021 的 9 篇论文,都研究什么?

    作者丨Pablo@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/354640406 编辑丨极市平台 导读 本次接收论文共13篇,其中3篇oral,节选汇总了悉尼科技大 ...

  9. 论文笔记| 几分钟看完ResNet的融合特性及冗余性分析的三篇文章

    本文是博主在paper reading时的ppt,主要涉及三篇论文: 1. Residual Networks Behave Like Ensembles of Relatively Shallow ...

最新文章

  1. 【JavsScript】推荐五款流行的JavaScript模板引擎
  2. Python使用matplotlib可视化散点图、使用seaborn中的lmplot函数可视化不同分组散点图的最优线性回归拟合曲线(Scatter plot with regression line)
  3. leetcode 268. Missing Number
  4. 基于Java的音频转发服务器_javaCV开发详解之5:录制音频(录制麦克风)到本地文件/流媒体服务器(基于javax.sound、javaCV-FFMPEG)...
  5. python函数—— .items()
  6. linux 查看登入记录_无时无刻,用 SimplyBook.me 管理者 App 查看客户预约排程!
  7. mysql5.5 function_mysql 5中的store function
  8. Python分布式爬虫打造搜索引擎(三)
  9. macos安装vscode_什么!你还没有安装Flutter!
  10. Android学习---解决Android Graphical Layout 界面效果不显示
  11. nvidia显示设置不可用_白送大福利?实战FreeSync显示器开启NVIDIA G-Sync Compatible
  12. 摄像头图像质量常用指标的测试方法
  13. directx修复工具_Diamond Cut Forensics 10(音频修复软件)分享
  14. 金蝶引出文件到服务器,金蝶迷你版如何引出帐套文件,具体操作流程
  15. 动辄上亿损失,网络安全谁来买单?
  16. 微博数据分析工具限时福利!购买西瓜微数加送会员时长 ,最多加赠1个月!
  17. MySQL-老杜学习笔记
  18. 搭建短域/短链接跳转平台
  19. 【半导体先进工艺制程技术系列】SOI技术(中)
  20. poj 3525 多边形内核,缩进

热门文章

  1. React-Todos
  2. BasicModal - 简单易用的现代 Web App 弹窗
  3. linux驱动编程入门实例
  4. 我对自动化测试工程师招聘的建议
  5. Camera+销量突破200万 创始人分享成功经验
  6. 桌面图标不透明的小问题处理
  7. 技术图文:Python 匿名函数 VS. C# Lambda表达式
  8. 被“钱”困住的开源开发者们!
  9. 《评人工智能如何走向新阶段》后记(再续26)
  10. 170个新项目,579个活跃代码仓库,Facebook开源年度回顾