2020-07-23 20:11:26

作者 | 青 暮

编辑 | 丛 末

来自纽约雪城大学的机器学习研究人员Daniel Acuna开发了一款论文图像查重软件,他用这款软件检查了3500篇论文的21,000张图像,在4小时内查出大约400张疑似重复的图像,这项技术或许将为学术造假乱象的解决带来曙光。近日,Nature还对相关事件进行了报道。

由于利益诱惑和成本低廉,学术造假屡禁不止。在国内,学术造假的最终结果几乎都是不了了之。

根据中国科学技术信息研究所的报告,中国发表SCI论文数量已居世界第二,紧追美国。截止2020年6月22日,全世界共有23425篇SCI撤稿,其中中国10303篇,占比44%。

此外,每年中国SCI论文撤稿占所有撤稿的比例也持续上升,2019年达到30%,2020年目前为止已达到33%。今年,中国已有317篇SCI论文撤稿,相对的,美国有215篇SCI论文撤稿。近三年来,剽窃和错误是中国SCI论文撤稿的首要原因。

其中剽窃主要是指文字抄袭,目前的查重系统只能查重文字,不能查重图像。而错误则主要是指 图像错误,包括经过PS然后重复使用的图像。

学术论文造假手段常用的有四种:1、重复用图;2、编造数据,用ps涂抹修图;3、花钱买论文;4、伪造审稿人。其中第一种和第二种最常用,造假成本最低,以重复用图进行学术造假的案例屡见不鲜。

2020年5月, 素有“打假斗士”之称的Elisabeth Bik博士,举报中国8篇论文 “不同作者、不同大学所属医院、不同癌种、不同蛋白表达,结果却一模一样”。

2020年6月,学术打假网站PubPeer上有人质疑清华大学医学院院长董晨24篇文章有些实验图像存在问题。举报者表示:在这24篇论文里,出现了部分实验图像在不同项目中重复出现,但标记数值不同;两幅实验图像相似度极高;不同指标的直方图完全一致的情况。基于之后董晨的回复,有知乎网友分析:他实际上委婉默认了有造假的地方,只是在造假程序或者数量上有不同的意见。

近日,网传Pubpeer 曝出北京大学常务副校长、中国工程院院士詹启敏的 25 篇论文涉嫌学术造假。这25篇论文被怀疑将相同图像修改后应用于不同实验甚至不同论文中。

可见,图像查重对于论文审查是非常重要的一环,而纯粹靠人工审查则相当费时费力,Daniel Acuna开发的这款软件无疑是一大利器。

1

工作初衷:为疫情防治贡献一份力

由于担心关于COVID-19的研究论文可能存在过多的草率工作,纽约雪城大学信息研究学院的助理教授Daniel Acuna 开发了一个能够对论文中的图像进行查重的程序,据悉,现在这项程序已被应用在全球的新冠病毒相关论文的预印本上。

对于开发这项程序的初衷,Daniel Acuna 表示:“我无法阻止疫情,只能以自己的方式做出贡献。”

该算法可一次筛选成千上万张论文以匹配图像,翻转、调整大小或旋转的图像也可以进行匹配。

这些重复图像可能是无意的失误,也可能是不当行为的结果。原本这项工作通常由专家人工检查,或用软件检查少量论文中的图像。

但需要注意的是,目前这项程序仍处于试验阶段,正在接受期刊和研究机构的测试。

2

查重结果存有争议

到目前为止,这项工作取得了一定程度的成功,但也引起了一些争议。

今年6月,Daniel Acuna从bioRxiv和medRxiv服务器上下载了3500个预印本,用他的软件查重了21,000张图像。在4小时内,该软件就查出了大约400张可能重复的图像。不过大多数结果都没有问题,他选择了24篇包含可疑重复图像的论文。

7月,他在自己的网站上发布了这些内容,并在PubPeer上公开。

这件事随后引起了轰动。一些论文作者回应说,Daniel Acuna的软件确实查出了重复的图像,他们将纠正错误,不过也有一些错误已经在同行评审版本中得到纠正。

芬兰赫尔辛基大学的病毒学家Giuseppe Ballistreri 对于这项技术,也持肯定态度,他表示,“如果该工具被证明是准确的,则应默认在PubMed中应用。”PubMed 是一个免费的搜索引擎,提供生物医学方面的论文搜索以及摘要。

另一方面,也有其他人指出,这些重复不是错误。Elisabeth BikBik以其在科学出版物中检测照片操纵的工作而闻名,她表示,希望Daniel Acuna首先向她咨询匹配结果。她进一步在PubPeer写道,该软件“仍然需要人工监督,以确保它不会错误地将适当的重复图像标记为不适当”。

对于 Elisabeth BikBik 的观点,Daniel Acuna 表示同意:软件标记的内容始终需要人来审核,并且尚无法根据上下文了解所获取的内容是否有问题。

更有一些研究人员指出,Daniel Acuna的软件完全弄错了,而且标记了相似但不匹配的图像。例如,北卡罗来纳州达勒姆市杜克大学的Priyamvada Acharya要求Daniel Acuna删除他的一篇论文的匹配结果,该论文包含同一分子的相似视角图。

随后,Daniel Acuna从他的网站上删除了大约三分之一的检查结果,并将该网站的列表设置为私人访问。如此,只有从他那里获得访问密钥的作者才能看到他的检查结果。

总体而言,这项研究论文的自动筛选技术远非完美,而且“仍然需要专家来解释和理解”。此外,德国海德堡的图像分析师 Jana Christopher 也指出了该技术的另一局限性:自动图像检查算法仍然过于专注于查找重复项,并且还不能应对所有图像处理手段。

3

再接再厉

除了技术上的不完美性,Daniel Acuna 本人还指出了影响软件的准确性的一个外在因素:PDF文件格式会破坏自动提取图像的能力。例如,今年5月,Elisabeth Bik在推特上叙述了关于Nature的一篇COVID-19 论文的图像复制问题,该图像也出现在2月份的预印本中,但Daniel Acuna的软件由于论文是PDF格式而没有检查到。

目前为止,关于新冠病毒的研究产生了无数的论文,许多研究人员担心出现低质量的研究和错误,甚至欺诈。有科学家发出警告:“质量低劣的研究将泛滥成灾”。

接下来,Daniel Acuna 打算继续进行论文重复图像的自动检查,而之后首先要做的事情,就是将查重结果告知作者,只有在他们不回应的情况下才公开结果。

对于学术界低质论文泛滥成灾的现象,Daniel Acuna 也发出了告诫:“我希望那些正在动歪脑筋的论文作者们意识到,有人正在对论文图像进行查重。”

参考内容:https://www.nature.com/articles/d41586-020-02161-3

Nature:学术造假者瑟瑟发抖,论文图像查重AI技术重拳出击相关推荐

  1. Nature:学术造假者瑟瑟发抖,论文图像查重AI技术重拳出击!

    2020-09-18 14:27 导语:人在做,AI在看 作者 | 青  暮 编辑 | 丛 末 来自纽约雪城大学的机器学习研究人员Daniel Acuna开发了一款论文图像查重软件,他用这款软件检查了 ...

  2. 好消息,发现一款知网学术不端论文检测查重助手,永久免费分享给大家使用

    今天Aliwen要为大家带来一款神器是,知网学术不端论文检测查重助手 v1.5.基本上每个高校都会对学生的毕业论文进行论文查重检测,一方面可以避免论文抄袭,另一方面可以端正同学们的写作态度,让学术氛围 ...

  3. opencv图像配准_Milvus 实战 | 基于 Milvus 的图像查重系统

    背景介绍 由于巨大的利益,论文造假屡见不鲜,在部分国家或地区甚至形成了论文造假的产业链.目前大部分论文查重系统只能检查论文文字,不能检查图片.因此,论文图片查重已然成为了学术论文原创性检测的重要部分. ...

  4. 如何快速通过研究生学位论文的查重问题(转)

    以下内容转自http://blog.sohu.com/people/ilas50!c/ 如果是引用,在引用标号后,不要轻易使用句号,如果写了句号,句号后面的就是剽窃了(尽管自已认为是引用),所以,引用 ...

  5. Milvus 实战 | 基于 Milvus 的图像查重系统

      背景介绍 由于巨大的利益,论文造假屡见不鲜,在部分国家或地区甚至形成了论文造假的产业链.目前大部分论文查重系统只能检查论文文字,不能检查图片.因此,论文图片查重已然成为了学术论文原创性检测的重要部 ...

  6. 硕士论文免费查重网站不靠谱,最好用知网!

    硕士论文免费查重网站不靠谱,最好用知网! 看到很多地方推荐使用免费查重,什么中国知网查重太贵?免费查重省钱?想到这里我都来气!我们学生没钱啊,不想给父母太多经济负担,到处都想节省个三块五块的.对于毕业 ...

  7. 期刊论文需要查重吗?

    自2019年翟天临被曝出博士论文涉嫌抄袭的学术不端问题后,各大高校论文重复率要求大幅提高,论文规范进入了堪称严苛的时期.如今"天临三年",毕业季的同学们依旧被查重率折磨的苦不堪言, ...

  8. 考研要求提交论文PDF查重注意事项(知网查重必看!)

    现在越来越多学校要求提交PDF格式的论文进行查重.近日有不少学生提交PDF格式论文学校知网检测时,被查出出众多重复.小编通过比较和分析,判断出知网查重系统对PDF版本的检测比Word格式的论文检测结果 ...

  9. 英文小论文怎么查重?

    小论文以发表在期刊杂志上为主,虽然内容相对其他论文而言较短,但其写作难度并不低,而且不仅写作有难度,后面进行的论文查重难度更大.那英文小论文要怎么查重呢? 一.英文小论文怎么查重 由于是期刊需要发表的 ...

最新文章

  1. PCL:点云配准1、基础知识:平面3自由度、旋转矩阵精讲
  2. 我是发起人Sumtec
  3. websphere变成英文了
  4. C++加号运算符重载
  5. java代码_Java 代码优化
  6. java重排序_Java synchronized 能防止指令重排序吗?
  7. ServletContext,ActionContext,ServletActionContext
  8. 从0到1搭建RPC框架
  9. 频率单位Hz、MHz、GHz、THz、PHz、EHz换算关系
  10. sql语句练习(1) 含问题,答案,数据库表,数据
  11. 使用openwrt-SDK 生成IPK
  12. 程序员记录biji的工具_程序员专用笔记 Quiver
  13. 中文女和程序员的爱情奇遇
  14. Instability Analysis and Oscillation Suppression of Enhancement-Mode GaN Devices--GaN半桥电路中不稳定分析
  15. 引入winrt头文件时提示there are too many errors for the intellisense engine to function properly
  16. zxing扫描条形码 ios
  17. 华为TE10一体化视频会议终端
  18. 表格里面如何根据身份证号提取出生日期
  19. 事实、循环、条件判断
  20. 全球最大企业管理软件商SAP研发管理精要

热门文章

  1. PHP 浏览器下载文件
  2. Mac 下生成keystore以及获得数字签名
  3. centos7 安装英伟达驱动;cuda;docker离线安装;docker gpu离线安装;制作自己的cuda镜像;安装 容器中ssh协议
  4. 终于有人来盘一盘安卓ASO技巧了,安卓市场aso优化技巧
  5. 按照前序遍历创建二叉树及树的四种遍历方式
  6. 计算机教室布置软木,软木照片墙布置,让孩子体验手工的乐趣
  7. 二维码生成插件qrious(纯JS)
  8. 谢振东:公共交通行业数字化转型升级的探索与实践
  9. Keil编译器——一些注意的地方
  10. VSCode 格式化 cpp 文件时配置左大括号不换行