点击下方卡片,关注“对白的算法屋”公众号

AI/NLP/推荐系统重磅干货,第一时间送达

对白的算法屋

一位本科创业赚数百万的清华小哥哥,BAT算法工程师。日常分享AI前沿算法、创业心得和人生感悟。偶尔逗比,一直正能量! 关键词:机器学习、深度学习、推荐系统、自然语言处理

46篇原创内容

公众号

博雯 发自 凹非寺

转载自:量子位(QbitAI)

现在的AI已经开始参与论文打假了!

就像是这样,经过旋转、拉伸和缩放之后的图片,人眼或许无法辨认,但AI能看到数百个相似的特征:

蓝色线条表示相似特征

即使通过高超的“图像处理手段”把一张完整图像中的局部画面挪到自己的图像里,也能一眼分辨:

对于AI来说,这可能是秒认的活儿,甚至就算是一篇图像繁杂的完整论文,也不过花费一两分钟。

但对于人眼可就没那么简单了,比如知名学术打假人Elisabeth Bik为了寻找不同论文中使用相同图片展示各自不同的实验结果的例子,曾花费了整整2年时间。

而对于出版商们来说,刊登又撤稿中间的损失就更大了……

因此,最近几年,AI打假员愈发频繁地被引入了论文审查,尤其是图像问题中。

比如,自今年1月份开始,世界上最大、最古老的癌症研究专业协会,美国癌症协会(AACR)就已经开始使用AI软件来评审旗下期刊文章里的图片造假或重复问题了。

官方网站上也已经写明:提交手稿中的所有图像都需要通过AI软件进行筛选。

不仅是AACR,世界第五大出版商SAGE、老牌经典医学期刊JCI、 JCI Insight都已经用上了这种方法。

自动图像校对

这些期刊和出版商们所使用的是一个由以色列公司Proofig开发的同名软件。

Proofig软件基于AI技术和图像处理技术,面向各种科学文稿中的图像,包括所有类型的显微镜照片(光学、电学、共聚焦)、载玻片、蛋白免疫印迹(Western blot)、生物体内和体外图像、植物图像等等。

软件会从论文中识别图像,然后提取它们共同的特征进行比较。

这些“共同的特征”包括对图像整体的缩放或旋转、部分重复或重叠、还有一些方位上的不同。

除此之外,软件也能额外检测到一些问题,比如高分辨率的原始数据被压缩到更小的文件中时,可能出现的压缩失真或压缩伪影(Compression artifact)情况。

一篇普通的论文通常在2分钟以内可以检查完毕,最多不超过10分钟。

对于很多出版商来说,一篇已刊登的科学文稿里如果出现图像剽窃这种学术不端的现象,那么从调查、撤稿到后续的法律费用,平均每篇文章可能要损失百万美元。

因此,很多出版商都乐意引入性价比较高的AI来和人工审查组一起工作。

AACR的一位期刊运营总监就表示:

很多作者也很高兴能在出版前注意到一些“无意中的”图像复制错误。

而对于我们来说,严谨的数据是我们期刊的一个显著的标志,因此,这(Proofig)绝对是值得投入的时间和金钱。

出版商们联合起来

其实,科学文稿中的图像重复或剽窃的现象已经是屡见不鲜了。

2016年,Nature上就有一篇文章对约2万篇生物医学论文进行人工分析后发现,其中**4%**的论文都可能包含上述问题。

而通常每年只有1%的文稿得到更正,因此撤回的文章就更少了。

因此,去年5月份,一些出版商联合起来成立了一个为解决论文中图像问题的小组,其中包括荷兰出版业巨头爱思唯尔(Elsevier)、Wiley、Springer Nature和Taylor & Francis。

爱思唯尔表示,小组最终的目标是“创造一个能够帮助我们自动识别图像变化的环境。”

还有很多出版商试图自己解决问题,比如瑞士出版商Frontiers开发了自己的论文图像检查软件,作为自动检查系统AIRA的一部分。

Frontiers内部的一位发言人表示,软件自2020年8月投入使用,标记的大多数论文都没有问题, 只有大约10%的论文需要人工检查小组的跟踪处理。

而有些尚未引入AI手段的出版商也展现出了对这种方法的怀疑:

在可靠性上,AI检查还没有大规模地投入使用。比如爱思唯尔的软件目前的进度还是“正在测试中“,只对部分期刊开放使用。

在成本上,AI软件偶尔的“误杀”依旧需要人工参与,甚至会引起其他的纠纷。

不过有人从另一个角度提出了问题:

如果所有的论文都是开放存取的,那么图像误用/重复问题将更容易得到审查,训练AI也会更有效率。

参考链接:
[1]https://www.nature.com/articles/d41586-021-03807-6
[2]https://www.nature.com/articles/nature.2016.19802

关于我

你好,我是对白,清华计算机硕士毕业,现大厂算法工程师,拿过8家大厂算法岗SSP offer(含特殊计划),薪资40+W-80+W不等。

高中荣获全国数学和化学竞赛二等奖。

本科独立创业五年,两家公司创始人,拿过三百多万元融资(已到账),项目入选南京321高层次创业人才引进计划。创业做过无人机、机器人和互联网教育,保研清华后退居股东。

我每周至少更新三篇原创,分享人工智能前沿算法、创业心得和人生感悟。我正在努力实现人生中的第二个小目标,上方关注后可以加我微信交流。

期待你的关注,我们一起悄悄拔尖,惊艳所有

AI已经参与论文打假了相关推荐

  1. 年度盘点!必看AI顶会论文、Github高星项目大合集(附链接)

    目前,国外计算机界评价学术水平主要是看在顶级学术会议上发表的论文,特别是在机器学习.计算机视觉和人工智能领域,顶级会议才是王道.本期我们盘点了2019年人工智能领域的顶会,如最核心的顶会AAAI.IJ ...

  2. 独家 | 年度盘点!必看AI顶会论文、Github高星项目大合集(附链接)

    目前,国外计算机界评价学术水平主要是看在顶级学术会议上发表的论文,特别是在机器学习.计算机视觉和人工智能领域,顶级会议才是王道.本期我们盘点了2019年人工智能领域的顶会,如最核心的顶会AAAI.IJ ...

  3. 腾讯AI八篇论文入选顶级医学影像会议MICCAI ,涉及病理癌症图像分类等

    感谢阅读腾讯AI Lab微信号第87篇文章.本文将解读2019年医学影像AI领域国际顶会MICCAI中腾讯AI的入选论文. 医学影像AI领域的国际顶会 MICCAI 2019 将于10月13-17日在 ...

  4. 如何写/审AI领域的论文【VALSE Webinar】Panel实录

    编者按:随着人工智能的飞速发展,相关领域学术会议和期刊的投稿量剧增.面对大量良莠不齐的学术论文,研究人员又该秉承什么理念来撰写.评审相关领域的学术论文?以及在"破四唯".工业界研究 ...

  5. AI自动评审论文,CMU这个工具可行吗?

    视学算法报道 作者:魔王.杜伟 转载自公众号:机器之心 近年来,各大学术顶会的论文投稿量暴增,这使得论文评审的工作量大大增加.那么,有没有可能自动生成论文的评审结果呢?最近,CMU 研究者对此展开了探 ...

  6. TopPaper:AI 初学者经典论文列表

    无论你是学习机器学习还是深度学习,看学术论文必不可少.作为 AI 初学者而言,如何挑选更适合自己.更容易学习的 AI 论文尤为重要!真的会起到事半功倍的效果. 今天给大家推荐一个非常不错的 GitHu ...

  7. 【学术相关】TopPaper:AI 初学者经典论文列表

    无论你是学习机器学习还是深度学习,看学术论文必不可少.作为 AI 初学者而言,如何挑选更适合自己.更容易学习的 AI 论文尤为重要!真的会起到事半功倍的效果. 今天给大家推荐一个非常不错的 GitHu ...

  8. ​原创 | AI顶会论文很多附带源代码?不少是假开源!

    作者:林嘉亮审校:陈之炎本文约3500字,建议阅读10分钟相当多的作者没有向用户提供足够详细的文档,导致了一些重要信息的缺失. 看到一篇绝佳的AI论文,非常期待作者能提供源代码,全文搜索HTTP,可惜 ...

  9. 独自一人,怒发AI顶会论文

    长短作为曾经熬通宵肝论文的过来人,小编要吐槽,论文写久了真的会头秃,尤其是确定选题和找创新点.idea的时候,是薅头发事件的高发阶段. 对于那些导师放养.在自己的摸索中磕磕绊绊前行的科研新手们, 焦虑 ...

  10. 深度学习先驱Bengio:AI顶会论文的Deadline是时候取消了

    选自yoshuabengio.org 作者:Yoshua Bengio 机器之心编译 对于机器学习界的研究者来说,一年的进度条几乎是靠数着顶会 deadline 来过的.「投稿→rebuttal→接收 ...

最新文章

  1. java 外部类似_[求指点] 如何用java 实现类似linux中管道调用外部程序的功能
  2. cpu超频有什么坏处_电脑超频知多少,让电脑打鸡血,怎么搞定
  3. [转]添加mysql索引的3条原则
  4. 开闭鸿蒙都只为风味情浓,开辟鸿蒙,谁为情种?都只为风月情浓。
  5. 机器学习实战-决策树-22
  6. 【机器学习实战】——常见函数积累
  7. 老师 累了,我们 泪了!
  8. 【转】Spark源码分析之-scheduler模块
  9. Linux统治超级计算领域的九个理由
  10. 微软.NET各技术应用前景 针对vs.net2010
  11. 从零开始学前端:grid布局和音频 --- 今天你学习了吗?(CSS:Day24)
  12. cookie分号后面没有值_Cookie的属性(cookie的设置、获取和删除)
  13. 文本处理三剑客,正则表达式等
  14. KETTLE使用教程(包含几个小示例)
  15. windows 2000 密钥
  16. 计算机网络上有个红叉没无线,电脑无线网络连接不上显示红叉
  17. c语言英文数字变数字,[求助]阿拉伯数字变英文数字遇到的问题
  18. sfgghshs测试测试
  19. 2020年日历_2020年农历阳历表,2020年日历表,2020年黄历
  20. 全球及中国有机莴笋种子行业供给需求与十四五产能规模预测报告2022版

热门文章

  1. PAT考试经验总结(甲乙级均适用)~~想满分的请看这里!~~
  2. C#远程时间同步助手软件设计
  3. 星际迷航中企业号的动力系统_五月四日与您同在:《星球大战》(和《星际迷航》)如何激发现实生活中的技术...
  4. (Java启动错误)c.n.d.s.t.d.RedirectingEurekaHttpClient : Request execution errora
  5. python初级课程-辛舒展-专题视频课程
  6. 输入两个正整数m和n,求其最大公约数和最小公倍数(常见的错误代码分析)
  7. 随缘刷题算法学习笔记
  8. 上海 三险一金 税后工资计算
  9. PC机装Openwrt19.07做BT下载机的详细配置
  10. 万亿级消息队列 Kaka 在 Bilibili 实践