大数据文摘出品

作者:宋欣仪

期末季,谁的身上不背着十几个ddl?

面对浩如烟海,怎么读也读不完的文献,提不出的问题,想不出的创新点,还有繁琐的论文格式,你可能也在幻想,“如果这时候能有一个论文机器人,帮我写论文就好了。”

有这样一群大学生,正在把幻想变成现实。

最近,几个在美国的中国留学生在联合撰写的论文《PaperRobot: Incremental Draft Generation of Scientific Ideas 》,提出并初步实现了运用AI写论文的想法,这篇论文已经被ACL 2019收录。

论文地址:

https://arxiv.org/pdf/1905.07870.pdf

GitHub地址:

https://github.com/arXivTimes/arXivTimes/issues/1223

机器能比人类写的更好吗?

本文的作者分别来自伦斯勒理工学院、DiDi 实验室、伊利诺伊大学香槟分校、北卡罗来纳大学教堂山分校和华盛顿大学。

其中,论文一作 Qingyun Wang (王清昀) 是伦斯勒理工学院的大四本科生,正准备攻读计算机科学的博士学位。

他们开发的AI学术助手叫做PaperRobot,可以帮助构建论文的背景知识图,写摘要、关键内容和标题,梳理结论并给出进一步的研究方向的建议。

工作流程

论文机器人的诞生有其现实必要性,PaperRobot目前主要应用于生物医学领域,这个领域已有的论文数已超过二千六百万份,近年来更是持续呈现井喷式的增长,每年发表的论文超过一百万份。

论文越写越多,但是人类的阅读能力却原地踏步。

在2012 年,美国科学家提出,人类平均每年只能阅读 264 篇论文,这个数字与他们在 2005 年进行的同样调查中报告的数据是一致的。而论文机器人能帮助学者快速从海量的已有研究中,筛选出写论文需要的材料,让你真正站在巨人的肩膀之上,节约大量的时间。

测试结果

研究者使用图灵测试来检验了PaperRobot生成的论文部分(摘要,结论和进一步研究建议)。

结果表明,喜欢PaperRobot生成摘要的读者要比喜欢人类写的摘要的读者多30%以上,结论部分投给PaperRobot的读者要多24%,研究建议部分12%。

还能做什么?

PaperRobot主要是借助自然语言处理(NLP)和自然语言理解(NLU)的最新进展而设计和开发的。主要工作流程是从已有的论文中提取知识,构建知识图谱,然后提出新的想法并协助写出论文。

快速阅读已有论文

PaperRobot 可以快速阅读已有论文,对指定领域的大量已发表的论文进行深入的理解,构建背景知识图 (KG)。

研究者应用的是 Wei 等人在2013年提出的实体和关系提取系统,他们输入生物医学领域的已发表论文,PaperRobot从中提取出3类知识概念:疾病,化学和基因。然后进一步将所有知识概念类型链接到 CTD (比较遗传毒理学数据库),提取出133个子类型的关系,比如标记/机制、治疗和提高表达。

之后PaperRobot就构建出如下的背景知识图。其中每个节点代表不同的知识概念,边表示这些实体之间的关系。

新灵感的萌芽

新的科学发现可以看作是在已有的知识图中创建新的节点或链接。创建新节点意味着在实验室实打实地通过一系列的实验发现新的概念 (如新类型的蛋白质),这对 PaperRobot 来说有一些困难。但是以背景知识图,也就是现有的知识概念作为起点,发现新的链接还是可以实现的。

已有研究表明,在640万篇生物医学和化学论文中,60% 以上是增量式,也就是创造新链接的工作。所以paperrobot所做的,通过背景知识图(KGs)中的新链接来自动地增加新想法和新假设是有意义的,可以成为科学进步的重要起点。

在这里论文提出了一种新的实体表示方法,也就是结合了背景知识图和非结构化上下文文本来进行链接预测,从背景知识库中链接已有知识而产生新的想法。

上图中的虚线就是PaperRobot 预测的新的链接,由于钙和锌在上下文文本信息和图结构上都相似,PaperRobot 预测了与钙可以发生关系的两个新邻居:CD14 分子和神经纤毛蛋白 2 (neuropilin 2),它们在背景知识图中与锌相关联。

写作阶段:解决你最头疼的格式

把新想法清晰地传达给读者是一件非常困难的事情,许多科学家可能想法很好,却表达不出来。PaperRobot 使用一个新颖的 memory-attention 网络架构,基于输入的标题和预测的相关实体,可以自动写出了一篇新论文的摘要,还可以写出结论部分和建议部分,甚至还可以生成新的标题。

示例:PaperRobot 写的部分论文

Background

Snail is a multifunctional protein that plays an important role in the pathogenesis of prostate cancer. However, it has been shown to be associated with poor prognosis. The purpose of this study was to investigate the effect of negatively on the expression of maspin in human nasopharyngeal carcinoma cell lines. Methods: Quantitative real-time PCR and western blot analysis were used to determine whether the demethylating agent was investigated by quantitative RT-PCR (qRT-PCR) and Western blotting. Results showed that the binding protein plays a significant role in the regulation of tumor growth and progression.

除了写论文,还能钓鱼

论文机器人的幻想早已有之,早在2005年,麻省理工学院(MIT)计算机科学与人工智能实验的三个学生Dan Aguayo、Max Krohn和Jeremy Stribling就曾经一起开发过一款自动生成论文的小程序SCIgen。

SCIgen小程序的学术钓鱼轶事

图片来源:MIT新闻网

SCIgen是一个网页程序,只需输入作者名,就可以自动生成一篇“SCI级别”的计算机论文。摘要、背景介绍、实验结果、图表、讨论以及结论一应俱全。生成的论文格式可能比一些学生写的论文还要规范。

但是,与PaperRobot不同,SCIgen根本无法通过图灵测试,因为它生成的论文只有格式正确,内容完全是不知所云。

SCIgen的原理很简单,类似于填词游戏。因为学术论文的格式非常固定,而且基本都是固定的专业词汇和句式。SCIgen只需要从固定的词库中,随机抽取出这类计算机领域内的专业术语,以符合语法的方式生成文本。再加上一些漂亮的图表和详细的参考文献等,形式上就可以非常规范,从而能骗过不少外行。

比如这篇生成的论文名为《Rooter:处理接入点与冗余的典型合一方法》,看起来用词非常高大上,但是内行人仔细阅读就会发现文章只是语言和术语的堆砌,没有什么实质性的内容。

但是讽刺的是,WMSCI(系统论、控制论与信息论多学科国际会议)会议不但接受了这篇假论文,还邀请作者出席会议作报告。

戏弄了半个学术圈

MIT三个大学生开发这款软件的目的其实就不是为了帮自己写论文,而是为了揭露WMSCI之类的不认真审查论文的期刊和会议。

在他们把SCIgen攻陷WMSCI的事情经过发到网上之后,WMSCI颜面扫地,迅速删除了论文,IEEE(美国电气和电子工程师协会)还撤回了对该会议的赞助。SCIgen因此也被戏称为“学术钓鱼软件”。

之后又有德国学生发现了这个神器,分别于2008和2009年向在中国武汉举办的两个IEEE国际会议投稿,结果机器虚拟的Schlangemann教授还被当成了知名学者,被邀请作为会议的主持人。

这之后康奈尔大学数学系博士后Nate Eldredge又根据SCIgen进行了改编,做出了名为Mathgen的计算机论文自动生成器。并在2012年用一个“南部北达科他大学霍普分校”的“Marcie Rathke”教授的假身份,向期刊《理论数学进展》(Advances in Pure Mathematics)投递了一篇论文,这篇论文正是用Mathgen自动生成的。

虽然论文摘要每句话都看起来很厉害的样子,但实际上就是在一本正经地胡说八道。但是10天之后,这篇论文就被接受了,编辑还像模像样地写了5点修改意见。

现在SCIgen的访问量依然惊人,每年的浏览量超过60万次,无数假论文源源不断地产出,导致这个页面隔几个月就要崩溃一回。

2013年,法国格勒诺布尔大学的研究员Cyril Labbé透露,他在IEEE和Springer出版公司旗下的期刊中,发现了超过120篇SCIgen生成的假论文。

SCIgen网址:

https://pdos.csail.mit.edu/archive/scigen/

人机合作而非全权交付

机器自动生成的假论文却被真的学术会议收录,这背后暴露的是学术审查的不严谨。

对于PaperRobot,也有人提出质疑,如果AI继续发展,写出的论文到了无可挑剔的地步,未來学生可以完全借助AI的帮助,自己不用动脑筋地写论文,教授该怎么打分呢﹖

从学术钓鱼软件SCIgen到灵感提供者PaperRobot,从假论文到真助手。技术的进步可以帮助科研人员节约时间,也可以被学生用于学术造假。

翟天临最近又上了热搜,原因是继2月“学术不端事件”爆发后,教育部加强对于学术论文的检查力度。这让毕业季和期末季改论文改到心力憔悴的学生们怒从心起,纷纷冲向了翟天临的微博评论区开始发泄痛苦。

这也引起了一些网友的批评,翟天临学术不端时被全网唾弃,可对学术成果的严格要求放在自己身上却不情愿了,做好学术论文难道不应该是一个学生的本职吗?

当初每一个年轻人都是都怀抱着以学术为业的初心,受到学术理想的旗帜的感召进入学术圈。我们在一个问题想不明白的时候会整夜整夜地辗转反侧,在灵感迸发的时候会欣喜若狂,在受到不公正的待遇,不客观的审查的时候会忿忿不平想要高声呐喊。

回到柏拉图《理想国》第七卷的开头:那些被铁链锁着的岩洞里的人只能看到光线透在岩石上的影子,直到有个人挣脱了脚镣,回身看到了太阳。他在目眩中四处摸索,逐渐适应了注视光明,此后他的任务便是爬回岩洞的囚徒那儿,率领他们回到光明之中。

科技不断进步,也许有一天借助AI每个人都可以写出完美的论文,但是只有背后的研究者真正知道它是怎么写出来的。技术的进步可以安排好我们的生活,但只有科学的进步才能让我们透视技术的本质,在影子之外看到太阳,不理会幻觉和影子,找到真正的存在。

开发论文机器人也只能用作辅助,不可能让他代替写论文。学术圈生态的维护需要从写作者本身到审查者都端正态度,安心做好冷板凳。

所以还是好好写论文吧==

相关报道:

https://zhuanlan.zhihu.com/p/63626472

https://neurohive.io/en/news/paperrobot-automatic-research-assistant-that-can-generate-drafts-of-scientific-ideas/

http://news.mit.edu/2015/how-three-mit-students-fooled-scientific-journals-0414

李慧翔.给我一篇假论文,我能骗倒半个地球.南方周末.2013

拯救期末!大四留学生发“论文机器人”,替你读文献给方向调格式,已被ACL2019收录相关推荐

  1. 如何去选取第一批要阅读的论文?_【手把手教你写论文】第二期:文献阅读进行时...

    点击蓝字 关注我们 无论是本科阶段.硕士阶段还是博士阶段,甚至是工作后的职称评定,大家可能都面临着论文写作和发表的需求,需要去完成各种形式的论文,比如毕业论文.期刊论文.会议论文等等. 自从2019年 ...

  2. 计算机专硕都发什么论文,比较好写的计算机研究生发论文题目 计算机研究生发论文标题怎样定...

    [100道]比较好写的计算机研究生发论文题目供您参考,希望能解决毕业生们的计算机研究生发论文标题怎样定相关问题,选好题目那就开始写计算机研究生发论文吧! 一.比较好写的计算机研究生发论文题目: 1.电 ...

  3. 研究生发论文是先有idea再做实验,还是先做实验再有idea?

    研究生发论文是先有idea再做实验,还是先做实验再有idea? 作者:王鸿伟 链接:https://www.zhihu.com/question/315337121/answer/627502932 ...

  4. 【论文】b站 - 读论文的麦小哲 学习笔记

    〇.前情提要 参考: b站up - 读论文的麦小哲 主页 https://space.bilibili.com/476241255 目录 一.论文引言 二.文献综述 三.论文摘要 四.开题报告 五.参 ...

  5. telegram中的Sci-Hub机器人,又一文献下载利器

    或许你看到标题会问什么是telegram,什么是Sci-Hub?请听我一一道来. 什么是Sci-Hub Sci-Hub是一个线上数据库,其上提供48,000,000篇科学学术论文和文章.网站透过&qu ...

  6. 论文LaTeX、项目README:无脑套用格式、开源模板最高10万赞

    公众号关注 "视学算法" 设为 "星标",消息即可送达! 来自 | GitHub    转自 | 机器之心 参与 | Jamin.思.一鸣 即使是最具创意性的机 ...

  7. NeurIPS 2019最佳论文出炉,今年增设“新方向奖”,微软华人学者获经典论文奖...

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 第32届神经信息处理系统大会(NeurIPS 2019)今天在加拿大温哥华正式召开. 据大会官方介绍,今年的参会人数达到了空前的1.3万人 ...

  8. 翻译专业论文选题有哪些值得写的方向?

    超级有用!翻译专业的同学看过来,你的专业论文选题确定了吗?在选题过程中,你都遇到了哪些困难呢?不知道该如何入手?不知道去哪里寻找文献?也不知道哪些方面值得写? 如果你也有这些疑惑,不要担心,这篇文章一 ...

  9. 论文查找: arXiv,论文阅读:知云文献翻译, 完美组合 !

    点击上方"码农的后花园",选择"星标" 公众号精选文章,第一时间送达 我相信大家在查阅学习某些相关技术.或者在写毕业论文.等各种论文的时候大部分都是在知网上查找 ...

  10. 期刊论文调格式的注意事项

    目录 1 标题.正文样式 2 一.二级标题的序号:多级列表 3 图.表 4 页眉页脚 5 分栏 作为一名学生,在毕业之前必定得经受一下论文调格式的洗礼.在帮同学调了两次格式之后,我发现这个过程中有很多 ...

最新文章

  1. ThreadLocal原理分析与使用场景
  2. 面板什么都看不到 unity_杨幂今年第一封太敷衍!最新大片不露脸不秀身材,什么都看不到...
  3. bootstrap-按钮(按钮工具栏)
  4. 关于 Java Collections API 您不知道的 5 件事--转
  5. 在用visio作图形界面设计,控件对齐的工具按钮
  6. java多数据源事务管理_Spring中实现多数据源事务管理 - CSDN博客
  7. mfc 改变tab快捷键对控件的顺序
  8. 【转】oracle内置函数 trunc 使用
  9. Danfo.js专题 - Danfo.js与Dnotebook简介与入门
  10. 蓝桥杯2015年第六届C/C++省赛B组第二题-星系炸弹
  11. win7服务器设置远程连接数据库,高手亲自帮您windows7系统中SQL Server2008设置开启远程连接的操作图文教程...
  12. 如何进行音频合并?很简单,只需三步骤
  13. python写微信小程序商城,oejia_weshop
  14. 离散数学——coq学习笔记(一)
  15. 中国居民身份证号码检验程序
  16. mysql1273,phpmysql错误 – #1273 – #1273 – 未知排序规则:’utf8mb4_general_ci’
  17. 简历制作案例分析及制作小技巧总结
  18. IDEA报错 Cannot resolve method ‘xxx‘ in ‘xxx‘
  19. 2022-2028全球皮肤科冷冻外科装置市场现状及未来发展趋势
  20. linux alc权限,Linux账号管理与ALC权限设定(二)

热门文章

  1. yy安全中心官网首页登录html,YY安全中心
  2. vue-element-admin 框架结构粗解
  3. threejs基于vue加载模型,让模型开启自动旋转 模型位置改变
  4. C语言中常用的标准数学函数
  5. IEC101 可变结构限定词、传送原因、ASDU公共地址和传送原因
  6. 用计算机遥感技术图片,卫星遥感影像数据是什么样格式的?
  7. D-月之暗面(树形dp)
  8. 金融类openapi
  9. 计算机操作系统的主要功能
  10. Incremental Event Detection via Knowledge Consolidation Networks