大数据文摘出品

作者:笪洁琼、奥????vi丫、lin

密集警告!

先来感受下这场地狱级别的连连看:这是16小块实验数据图,你能看出哪些块存在相似的地方吗?

文摘菌看了一会儿就头昏眼花,但是,你相信吗?有人可以用肉眼一下子看出其中相似的地方,而且,这就是她每天的日常工作。

这位“连连看高手”就是Elisabeth Bik,人称跨国论文打假王,专门寻找论文中的异常,目前已经对超过49个国家的研究学者公开发表的论文提出质疑。

她的特殊技能是,可以用肉眼浏览数十篇生物医学类的论文,并寻找其中重复使用的图像,这些重复图像包括通过复制、翻转、移动或旋转图像的一部分来创建“新”的实验数据(文献检索新姿势,教你如何直搜文中的科研图片!)。

2019年11月,在PubPeer(可匿名讨论论文的网站)上,南开大学的校长曹雪涛教授,有超过40篇论文的实验图像数据,被质疑存在重复异常。(事后曹教授被质疑的论文已进行更正)

2020年2月,来自我国三甲医院的400多篇论文被她质疑是论文工厂代写,论文中的实验图像数据以及写作逻辑都存在问题。

本月初,Bik质疑中国医学科学院动物研究所所长秦川团队,在Nature上发布的论文存在重复图像,5天后秦川团队回应:误用一张病理学实验数据图片,已向Nature提交更正。

没错,这些异常都是她凭着火眼金睛找到的。

走上打假之路之前,Bik也是一名普通的研究者

1997年,Bik在荷兰的乌得勒支大学(Utrecht University)结束了她从理学硕士到博士后的研究学习生涯,并于2002年去斯坦福大学做助理研究员,此后15年都在研究人类以及哺乳动物的微生物群方向,直到2019年开始“全职“进行论文打假工作。

一战成名的小意外

Bik论文打假工作开始于2013年的一次小意外。当时Bik出于好奇,去搜索了一下自己已发表论文中引用的参考文献,没想到其他人没有按照学术规范表明,进行引用文献说明。

接着,她在审核一篇博士论文的时候,发现其中的一张实验图像:蛋白质印迹的分布规律十分奇怪,更为奇特的是她在论文的另外一章里也看到了这张图像,论文里是将这张图像作为两次不同的实验结果,但Bik认为该图像不仅本身存在问题,而且还用在两个不同的实验中

由于该论文已经公开发表了,她为了不让其他研究者因为这篇有错误的论文,而开始错误研究的路,就向该期刊的编辑发送邮件说明这个问题,并在同年6月在PubPeer网站上对该论文进行匿名评价。

经过一番调查,相关论文被撤回,而这篇涉嫌篡改数据的论文,让Bik一战成名

接下来,Bik开始对寻找造假实验图着迷了,由于看论文非常耗费时间,所以她辞掉了医药公司的研发总监工作,专心进行论文打假。

Bik对论文打假比本职工作更有激情,她每次提出质疑不止一篇而是好几篇,甚至是几百篇打包式质疑,并及时通过和期刊编辑联系,对存在异常的论文进行更正或者撤稿。

魔法之眼:打假流水线

由于论文数量比较多,她还找到志同道合的朋友一起合作,Bik负责筛查论文,并将筛查出的问题论文结果,传给两位朋友:微生物学家Arturo和Fang进行审核,俨然一条论文打假流水线。

他们一共对2万多篇论文进行抽样调查,结果发现了782篇论文存在图像重复的情况。Fang表示:“Bik就像是魔术师,论文中的问题只有经她指出,我们才看得到”。

Bik的日常是从早上开始看论文,一天她收到了来自比利时的科学家的求助信,信中声称:请帮忙看看附件里的实验图像是否存在问题?

Bik仔细看了下图像,发现该蛋白质印迹图像属于存在异常的,通常蛋白质印迹条带分布图(一种检测生物样品中蛋白质的通用测试结果)是模糊,而且类似圆滑的黑色毛毛虫状,但图像上是边缘非常尖锐,而且像素化的特征非常明显。

正常的实验图像可能会存在类似的印迹分布,但不大可能出现完全相同的分布。

当然也可能存在图片被压缩后的痕迹,或者是研究者在准备图像数据时不小心上传了重复图像,以及旧显微镜上的斑点导致每张图上都有奇怪的斑点。她还需要参考论文的其它地方再来判断是否存在重复图像的问题。

坚持与困扰:“做一个诚实的科学家真难”

虽然她在自传里评价自己是直率又刻薄,但她同时又极度内敛

在她打假成名之后,有非常多的人给她发邮件、发消息,希望她能帮忙看看已发布的论文是不是存在问题。由于数量太多,让她忍不住发推声明:因为询问的人数太多,所以她可能无法及时跟进。并且在这些求助信息里,还存在团队或同事之间的不信任,“做一个诚实的科学家真难。”

虽然Bik对于目前的打假工作充满热情,但还是会受到威胁和骚扰。比如经常收到私信被骂,推特频繁被下线,写邮件给前同事说坏话之类的情况。

要知道,论文打假行业不仅仅只有她一位论文警察,就只有她是公开使用真名发布打假信息。

她开始在每篇文章的开头写上:这篇文章不是对学术不端的批评。

由于Bik持续打假,她的粉丝量在一年内翻了三倍。她不仅自己寻找问题,还将发现有问题的论文提前发到推特上,看谁能先找出来问题,并号召大家一起来找茬,第一个答对的人有奖励,甚至还有粉丝找到了她都没有找到的隐藏彩蛋。

她自己保守估计至少导致了172次论文退稿,以及超过300次修改。

每天看100篇论文,共建图像查重系统

Bik一天可以精读大约100篇论文,并向她的数据库中添加1到20个匹配数据。当一张重复的问题图像反复出现,以及一张熟悉的问题图像再次出现时,系统就会出现提示。当收集的图像数据足够多时,系统就可以自我总结规律,比如多次出现问题的研究者就会重点审核。(敲黑板警告)(这个Nature推荐的代码海洋竟然有文章作者上传的所有可重现性脚本,涉及单细胞、微生物组、转录组分析、机器学习等相关)

虽然Bik表示她不针对任何人,但数据库里问题最多的研究者的国籍是中国和印度,重复的图像更喜欢低影响力的期刊。

根据这个数据库,Bik在和计算机科学家合作开发一款自动查重图片的软件,希望可以在数百万篇论文中发现重复使用的图片。

“很遗憾,我们不能克隆Elisabeth Bik,”纽约雪城大学的计算机科学家Daniel Acuna说,他的小组是专门研究问题图像检测算法,尽管Bik擅长在单篇论文里查找复制的图像,但计算机可以通过比较数十万篇或数百万篇论文,来帮助找到两篇论文之间的更多的重复,这对人类来说几乎是不可能的任务。

2018年,Acuna的团队在bioRxiv预印服务器上发布了分析的初步结果,该分析结果从760,000篇论文中提取了200万张图像。

AI能替代吗?

事实证明,计算量太大,根本无法将每张图像彼此进行对比,但是该团队研究了同一作者在论文内部和跨论文的图像重复,在手动检查了软件标记的3,700多个匹配图像的样本后,研究人员确认了40篇异常论文,其中几乎一半涉及同一张图像,用于在不同的论文中代表不同的结果。

当前的技术擅长检测复制,翻转或旋转的完全相同的副本。Resis 公司有款软件,可以检测论文是否使用重复图像。比较麻烦的是,例如两张图像共享一小块重叠区域,但在其它方面完全不同。这时,软件就失效了。

Bik给Acuna提供了更多的样本数据来训练机器学习算法(机器学习爱好者必读的入门指南),其中包含了大量重复的图像数据。爱思维尔(Elsevier)也在研发同类型的数据库,现有500个生物医学方向的样本数据,主要是来自撤回论文的图像数据。

Bik对目前能用的软件都不满意。她相信未来会有计算机程序来进行筛选,但人们将始终需要审核结果,尤其是要审核在某些情况下的图像,存在部分相似的情况。

就这样,Bik倒了一杯咖啡,坐在桌旁继续看论文,落地窗外是满满的果树和植物。

相关参考:

https://www.nature.com/articles/d41586-020-01363-z

https://scienceintegritydigest.com/

https://scienceintegritydigest.com/2020/02/21/the-tadpole-paper-mill/

http://www.inewsweek.cn/society/2019-11-18/7721.shtml

https://mp.weixin.qq.com/s/zDLgvRQ9rgUGu-CPqtEzIQ

精选●阅读

  • 这个只需一步就可做富集分析的网站还未发表就被CNS等引用超过350次

  • 什么,你算出的P-value看上去像齐天大圣变的庙?

  • 从一段挖矿病毒代码看Linux命令的实际应用

  • Nature重磅综述 |关于RNA-seq,你想知道的都在这

  • RNA-seq最强综述名词解释&思维导图|关于RNA-seq,你想知道的都在这(续)

  • 有了这些,文件批量重命名还需要求助其它工具吗?

  • 只需一行代码,完美呈现Markdown格式,写作展示两不误

送书

在上周的留言送书活动中,恭喜下面这位读者获得书籍“Python:入门到人工智能实战”,请及时与生信宝典编辑(shengxinbaodian)联系。

看了本文,您有什么想说的呢?

欢迎转发朋友圈并留言评论,留言得赞最高者将获得下面由北京大学出版社赞助的书籍(联系小编时请附上分享截图),结果在下一期送书活动中公布:

本书从自动化测试理论入手,全面地阐述自动化测试的意义及实施过程。全文以Python语言驱动,结合真实案例分别对主流自动化测试工具Selenium、RobotFramework、Postman、Python Requests、Appium等进行系统讲解。

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

送书 | 日读论文100+,AI都替代不了!辞去医药研发总监后,她成为了一名全职学术警察...相关推荐

  1. 日读论文100+,AI都替代不了!辞去医药研发总监后,她成为了一名全职学术警察...

    大数据文摘出品 作者:笪洁琼.奥????vi丫.lin 密集警告! 先来感受下这场地狱级别的连连看:这是16小块实验数据图,你能看出哪些块存在相似的地方吗? 文摘菌看了一会儿就头昏眼花,但是,你相信吗 ...

  2. 为什么我们不愿意读论文,原来都是作者害的

    今天在头条 沈向阳:读论文的三个层次 文章中,对 沈向阳 博士于5月14日在 全球创新学院(GIX) 所做的一场线上公开课"You are how you read",分享了一些他 ...

  3. 【喜讯】 第1期送书活动获奖名单,看看都是谁!

    微信公众号 关键字全网搜索最新排名 [机器学习算法]:排名第一 [机器学习]:排名第一 [Python]:排名第三 [算法]:排名第四 <机器学习算法与Python学习>的小编于11.10 ...

  4. 年营收 1 亿美元的 Midjourney:仅 11 名全职员工,其中 4 名本科在读

    整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 还记得这张 "中国情侣" 图片吗?因其由 AI 一键生成,且效果酷似真人而火遍全网,也让 Midjourney 这款 ...

  5. 送书!我觉得说啥都不如送几本新书

    这是一篇送书活动的文,大家可以看文章最后的规则参与. 别啊,别直接刷到最后啊-- 但这更是一篇寻求送书活动新玩法的文,大家可以把参与活动也当做一次练习,实战一下实物产品的运营思路,而这篇文只是个最最粗 ...

  6. 送书 | 一本针对零基础 AI 学习的书:Python入门到人工智能实战

    五月份北京大学出版社新出的一本书<Python入门到人工智能实战>,由吴茂贵等著作.它是一本针对零基础编程学习者编写的教程. 从初学者角度出发,每章以问题为导向,辅以大量的实例,详细地介绍 ...

  7. 读论文七步走!CV老司机万字长文:一篇论文需要读4遍

      视学算法报道   编辑:LRS [新智元导读]读论文对于AI新手和工程师来说可能是一件比较难的事.最近一位从业超5年的CV老司机发布了一篇万字长文,讲述了读论文七步法,从找论文到总结,每篇论文由浅 ...

  8. 读论文七步走,CV资深博客专家长文:一篇论文需要读4遍

    读论文对于AI新手和工程师来说可能是一件比较难的事.最近一位从业超5年的CV老司机发布了一篇万字长文,讲述了读论文七步法,从找论文到总结,每篇论文由浅入深都需要读4遍. 人工智能从业者需要读论文吗? ...

  9. 推荐十本值得一读的AI书籍(留言送书)

    下一次技术革命会是什么? 刘润在2022年<进化的力量>演讲中的回答是: "很可能是第五要素,人工智能驾驭的数据." 毫无疑问,人工智能技术的应用与落地已经是未来发展的 ...

最新文章

  1. 面向对象解决了全局变量问题?
  2. 【开源】博客园文章编辑器4.0版发布
  3. pandas使用transpose函数对dataframe进行转置、将dataframe的行和列进行互换(flip the rows and columns in dataframe)
  4. Chosen中选择项的更新
  5. 十八、中断之独立按键
  6. c语言三目运算错误,c语言中三目运算符有什么用
  7. C语言位于30到100之间的一个奇数,《帮你度过C语言新手阶段》系列之三
  8. Host key verification failed.
  9. Windows10使用Anaconda安装TensorFlow-GPU
  10. 自己动手写操作系统之1:bochs初步使用
  11. ROBOGUIDE软件:FANUC机器人弧焊焊接起始点接触寻位虚拟仿真
  12. PS案例提升 【第1节】抠图--薄、透、露的朦胧美 案例二:扣取婚纱新娘
  13. What Is Harmony OS? Huawei’s New Operating System Explained
  14. 五线谱入门,程序员也可以玩音乐
  15. 何钦铭版C语言第3章答案,何钦铭版C语言第3章答案
  16. vue3里面的watch
  17. 如何恢复类视图中突然消失的类已经编程辅助工具VISUAL ASIST
  18. 爬虫练习一(爬取笑话集)
  19. [转]百度UEditor编辑器(php)
  20. css制作三道杠小图标菜单图标

热门文章

  1. 【数据库系统】O/R映射
  2. 【Python】Smtplib正确模拟发送QQ邮件
  3. 【Tomcat】初次配置Tomcat的那些糟心事
  4. 【Python】Python随机数random模块的应用
  5. 【Java】基数排序
  6. 用计算路由的方法优化BI后台性能
  7. 【系列7】使用Dockerfile创建带mysql的Centos Docker镜像
  8. 看美国如何实现农业大数据的建设
  9. dedecms--在后台增加会员添加
  10. 简单粗暴的移动端页面开发技能