视学算法报道  

编辑:袁榭

【新智元导读】2022年1月3日,论文预印本平台arXiv的论文数量突破200万篇。30年来,arXiv预料之外的成功,给科学界带来巨大助益,但现在也面临了维持艰难的窘境。

2022年1月3日,论文预印本平台arXiv发布了自创始以来的第200万篇论文,论文题目是《仿射迭代和翘曲效应:多种方法论》(Affine Iterations and Wrapping Effect: Various Approaches)。

ArXiv经历了爆炸式发展,创始人保罗·金斯帕格得知这个消息后说:「网站用了23年半获得100万份论文,又用了7年获得200万份论文,或许之后只需要4年半就能获得300万份。」

1991年来arXiv论文投稿量的变化

康奈尔大学文理学院数学教授、arXiv顾问委员会成员塔拉·霍姆称:「这200万份提交的论文代表着人类有200万个机会来推动自身的理解前沿。在我们庆祝这一成就的同时,也必须继续努力,使学科与研究更容易被世界各地的研究人员和公众所接受。」

论文不发在arXiv上等于不存在

成立于1991年前的arXiv是「开放存取运动」的先驱,让全世界学者使用此平台来分享自己的研究,并阅读其他人提交的论文。

arXiv上有大量的论文预印本,它们是尚未经过同行评议、尚未发表或不发表在期刊上的文章。论文发表后也能以修订版形式出现在arXiv上。

现在,arXiv已经是全球顶级科研论文库,每天会收到8个主要主题领域的、多达1200份新提交的论文,此外还有多达1000份的修订和其他更新。arXiv改变了多个学科的研究方式。

物理学界有说法:「如果论文不在arXiv上,那就等于不存在。」

数学界的塔拉·霍姆也说:「如果我问同事,『你的所有或大部分论文都arXiv上吗?』,他们会不相信地看着我,『当然,我所有论文都在arXiv上。』arXiv已经成为数学研究的命脉。」

arXiv论文投稿量的分学科分布

网站上的论文预印本主要集中在理科方向:数学、计算机科学、定量生物学、计量金融学、统计学,以及物理学。这些研究的提交者范围从研究生直到诺贝尔奖获得者都有。四名全职工作人员、世界各地的196名志愿版主以及自动系统对提交的论文进行筛选和整理

ArXiv,世界科研人的理想文库

ArXiv为科研人员带来了理想中的文库:免费发表和阅读、快速发表、包含学科内几乎所有经典论文、全库检索、随时随地访问。

在 arXiv 诞生前,论文预印本只在学术界小圈子里用电子邮件或人工分发。对于递交到科学期刊的论文,作者通常需要等待半年甚至更长时间才能出版。

而有了arXiv后,递交到平台的论文通常能在一天之内上线。作者们更愿意会将手稿上传至 arXiv,然后在同行评审期刊上发表最终版本。

而对于使用它的研究者来说,arXiv是日常工作流程的一部分:他们早餐时可能会同时翻阅上面的最新文章,中午提交一篇自己的论文,晚间从平台下载阅读材料。有天体物理学家描述了arXiv对学科研究的提速:「上周五一架天文望远镜发现了新东西。下个周一相关论文上线。到了周二,就有反驳周一文章的论文出现。」

1991年来arXiv论文的下载量变化

研究成果快速流通的价值在2020年变得极为显著,因为新冠大流行使研究速度成为生死攸关的问题。arXiv现在拥有5400多份与COVID-19有关的提交材料。

这一价值在2020年变得极为明显,因为新冠大流行使研究速度成为生死攸关的问题。arXiv现在拥有5400多份与COVID-19有关的提交材料。

arXiv还使学界更加平等。无论是世界顶尖大学的知名教授、还是不知名机构日夜奔忙的博士后,抑或是穷国缺研究资金的学者。所有人的新成果都可以被其他研究者立即看到,所有人也都可以跟进批评或改善他人的研究。

可以说,没有arXiv,很多学科就不会迎来21世纪的革命性变化。

普林斯顿的断网大雨,淋出了arXiv

如此重要的平台,居然是被大学的多雨与劣质网络催生的。

按arXiv的主要创办者之一、宇宙物理学家乔安妮·科恩的回忆,从1989年秋天当时供职于普林斯顿大学的自己无法参加学术会议、托同事保罗·金斯帕格用电子邮件转发会议论文起,自己的论文邮件转发群组就越发庞大。

在1990年代初,这种电邮转发方式已经面临了太多阻碍。1991年前,每台收件电脑都是电子邮件转发链中的必要节点。每次普林斯顿大学下雨,网络都会断线。当雨停时,科恩就会收到一大堆提醒通知,告诉她邮件没有发出去。

当时的电子邮件还有字数与篇幅限制,科恩要把较长的论文分成两部分发送,否则也会收到海量的发送错误提示。

保罗·金斯帕格

而且越发国际化的邮件转发链也给预印本的电邮流通方式带来挑战。1991年海湾战争时,受波及的以色列学者们就只能在每天的特定时间才能连上国际通讯网络。

原苏联消失时的变故也让俄语学界一时联不上网,尘埃落定后的俄语学界对断网时的预印本邮件进行了补偿式下载,结果瘫痪了多家大学的服务器。

1991年夏天,金斯帕格问科恩要不要把邮件发送的方式自动化,他能帮忙写程序。在科恩同意后的几天,金斯帕格就写好了一个程序脚本,这就是arXiv的雏形。

蓝色部分为现在向arXiv投稿的国家与地区

arXiv的域名,最开始是跟着金斯帕格的职业路径在变。1991年时,金斯帕格供职于美国洛斯阿拉莫斯国家实验室,所以arXiv就储存在洛斯阿莫斯国家验室的服务器上,域名是会让圈外人浮想联翩的xxx.lanl.gov。

洛斯阿莫斯国家实验室并没有持续支持此项目的热情。到了2001 年,换雇主的金斯帕格将网站转移到新东家康奈尔大学,并更名为arXiv。直到今日,arXiv一直托管在康奈尔大学,主要由美国美国西蒙斯基金会(Simons Foundation)和国际学术机构们的资金支撑。

arXiv的困境:缺钱了

不过arXiv就和其他著名的线上知识共享项目一样,面临着相似的障碍:缺钱、人少、活多。

arXiv主要资金由西蒙斯基金会提供,此外还有来自捐助者和243个图书馆、大学、研究组织和专业协会的捐款。这种托钵化缘式的资金来源方式,在2021财年仅能为arXiv提供2,423,994美元的预算。

无怪有学界人士不平:「支撑全世界科研的arXiv预算200万美元出头,业绩乏善可陈的美国国家科学基金会预算永远不会低于70亿美元,世界真的很搞笑。」

按arXiv团队的核心成员称,人手与资金短缺的困境已经持续数年,而现在的开支仅能支持少量员工帮助196名志愿审核员每天处理来自150个分类学科1200份投稿。

金斯帕格于2021年8月撰文,披露arXiv早已靠能筛选语言标记的机器学习算法来支撑人工审核。程序能在几毫秒内全面评估全文内容,包括对照整个后台数据库,检查每份新提交的文档是否有警示性字眼与重复文字。现在,arXiv大部分内部人力用于调解和裁决各种人类和AI的疏漏。

即便如此,由于审核失误,arXiv无端拒稿的负面消息仍然时有出现。最近一次是2021年8月,arXiv审核员拒绝了中国知名科学家陆朝阳和潘建伟的一篇论文,两人分别在量子研究领域贡献了多个「第一」。按意大利博洛尼亚大学理论物理学家罗伯托·卡萨迪奥的独立评估,稿件完全在合理讨论范围内,拒稿没有理由。

arXiv的科学总监称,未来不大可能在arXiv建立同侪评审,只好预计在未来几年内将审核员增加到至少300人,这样每个学科分类至少有两人负责。

arXiv重塑了世界科研的路径,希望这条路能顺畅延续下去。

参考资料:

https://news.cornell.edu/stories/2022/01/arxiv-hits-2m-submissions

https://physicstoday.scitation.org/do/10.1063/PT.6.4.20211108a/full/

https://www.scientificamerican.com/article/arxiv-org-reaches-a-milestone-and-a-reckoning/

https://arxiv.org/about/reports-financials

点个在看 paper不断!

刚刚,arXiv论文数破200万!没有arXiv,就没有21世纪的科研突破相关推荐

  1. 50万粉丝单场带货破200万!这些快手美妆黑马主播是如何在双十一前夕涨粉又爆单的?

    临近双十一,快手直播电商行业的带货持续蓬勃发展.以火热的美妆护肤品类为例,双十一拉开序幕的10月20日当天,美妆护肤品类大盘销量和销售额都达到一个顶峰. △飞瓜快数-美妆护肤商品直播大盘数据 那么双十 ...

  2. 无代码资讯|SAP发布低代码平台;钉钉低代码应用数破500万;轻流举办无代码城市论坛......

    栏目导读:无代码资讯栏目从全球视角出发,带您了解无代码相关最新资讯. TOP3 大事件 1.SAP 召开"SAP TechEd "大会,发布低代码平台 SAP Build 11 月 ...

  3. 国内首个商用固移融合视频业务用户数破200万

    河北省"联通电视"用户规模突破200万!这是河北联通近日举办的"联通电视"三周年新闻发布会上宣布的信息,同时,河北联通还发布了"联通电视"手 ...

  4. 一加9系列全网预约量破200万:3月24日见!

    根据此前官方公布的信息,一加将于3月24日推出今年的首款代表性旗舰--全新的一加9系列,而其最大的卖点就是将首次与哈苏达成战略合作,将哈苏影像技术带到手机领域.随着发布时间的日益临近,官方关于该机的预 ...

  5. 2018年全球电动车销量破200万辆 特斯拉Model 3销量居首

    [TechWeb]2月23日消息,据外媒报道,EV Sales网站公布了全球电动车销量数据,数据显示,2018年全球电动市场实现了200万辆的年度销量目标,总销量达到2018247 辆,较2017年劲 ...

  6. TDengine GitHub Star 数破万,拥抱开源是件很酷的事!

    好消息!TDengine 开源 2 个月,GitHub Star 数破万! 今天是 TDengine 开源后的第 1 个月零 30 天. 其实,在我们准备宣布开源的前两天,每个人心里都有压力.虽然我们 ...

  7. IJCV论文与arXiv论文神似,arXiv,是占坑神器还是剽窃利器?

    来源丨Reddit 编辑丨Priscilla LQ [导读]论文被scoop(抢先发表)了!相信有过这种「中奖」经历的人不在少数.自己的idea被「抢发」着实是一件让人100%沮丧的事情. 咦,顶刊I ...

  8. 以太坊服务器是什么_今日推荐 | 以太坊独立地址数破亿,持有ETH地址数达4000万意味着什么?...

    免责声明:本文旨在传递更多市场信息,不构成任何投资建议.文章仅代表作者观点,不代表火星财经官方立场. 小编:记得关注哦 来源:链闻独家 原文标题:以太坊独立地址数破亿,持有 ETH 地址数达 4000 ...

  9. 工信部:中国4G基站规模超200万个 4G用户数破5亿

    5月31日消息(李明)在今天举行的"第一届全球5G大会"上,工业和信息化部部长苗圩表示,经过多年的努力,中国已经建成全球最大的4G网络,基站规模超过200万个,用户数突破5亿. 当 ...

最新文章

  1. Error in match.names(clabs, names(xi)) : names do not match previous names
  2. [MySQL 5.1 体验]MySQL 事件调度器(Event Scheduler)
  3. centos mongodb安装及简单实例
  4. matlab clabel函数用法,CLabel函数说明
  5. _用WSL,MobaXterm,Cmder配置linux开发环境
  6. react js 添加样式_如何在React JS Application中添加图像?
  7. Sentinel云原生K8S部署实
  8. Windows rundll32的用法-批处理管理打印机
  9. 标准库rand()函数的缺陷以及Blitz++随机数生成的简介
  10. linux做svn客户端吗,Linux中的svn客户端(TortoiseSVN 的替代者)
  11. 【note】编程范式(编程范型)的含义和种类,多范式编程语言
  12. PyTorch学习—9.模型容器与AlexNet构建
  13. 干部人事数字档案管理系统,实现从“纸件”到“指尖”的安全蜕变
  14. 如何把大写金额变为小写数字_如何将小写金额转换为大写金额?这几个公式你至少要学会一个……...
  15. Bootstrap4与Bootstrap3的区别
  16. python自动化部署hadoop集群_大数据集群的自动化运维实现思路
  17. 一个简洁的倒计时shell 脚本
  18. 安装炫酷桌面himawaripy实施卫星地图
  19. OSI 七层模型和TCP/IP模型及对应协议(详解)
  20. RTSP协议视频监控智能分析平台EasyNVR如何将音频转化为aac格式并上传?

热门文章

  1. asp.net mvc jqgrid 同一个页面查询不同的表,jqgrid显示不同表的表头和数据并且分页...
  2. 小白的Unity5之路(一)
  3. 使用java的Calendar对象获得当前日期的上几个度开始、结束时间
  4. 【青少年编程】【三级】计算平均分
  5. 前后端分离的探索(四)
  6. windows socket编程入门示例3
  7. ORB 特征检测与匹配
  8. 最近邻插值实现:图像任意尺寸变换
  9. 阿里技术文档:Redis+Nginx+Spring全家桶+Dubbo精选
  10. 韩辉:国产操作系统的最大难题在于解决“生产关系”