机器之心报道

编辑:杜伟、小舟

现在,用户可以在 Kaggle 平台上获取 arXiv 论文了!

众所周知,arXiv 是我们搜索、浏览和下载学术论文的重要工具。近 30 年来,arXiv 为公众和研究社区提供了开放获取学术论文的服务。这些论文涉及物理学的庞大分支和计算机科学的众多子学科,如数学、统计学、电气工程、定量生物学和经济学等等。

arXiv 上研究论文数量之多有利也有弊。一方面,对于在自身研究领域迅速成长的研究生,以及致力于用科研为公众提供服务的研究者而言,这一丰富的信息库可以提供极有效的助力。另一方面,arXiv 有时在搜索时也有不便。

与此同时,Kaggle 通常是数据科学家和机器学习工程师寻求有趣数据集、公开笔记和赛题的重要平台。研究者可以利用 Kaggle 上广泛的数据探索工具,轻松地与他人共享相关脚本和输出。

所以,是不是可以将 arXiv 上的巨量学术论文打包放在 Kaggle 上呢?

近期,为了让 arXiv 可用度更高,康奈尔大学和其他一些开发者在 kaggle 上创建了一个免费、开放的 arXiv 数据集。该数据集是一个含有 170 多万篇学术论文的存储库,用户可以获取论文的标题、作者、类别、摘要、全文 pdf 等。

arXiv 执行董事 Eleonora Presani 表示:「在 Kaggle 上放置完整的 arXiv 语料库,可以极大地增强 arXiv 论文的阅读潜力。并且,通过在 Kaggle 上提供该数据集,我们能够获取比通读这些文章更多的知识,并且能够以机器可读的格式将 arXiv 背后的数据和信息向公众开放。」

此外,她还表示:「arXiv 不仅是一个论文资源库,它还是一个知识共享平台。这就要求我们在展示和解释可用知识的方式上不断创新,Kaggle 用户能够帮助突破这种创新的局限,并且能够成为社区协作的新渠道。」

开发者希望启用能够探索出更丰富机器学习技术的新用例。这些技术还将结合面向如趋势分析、论文推荐器引擎、类别预测、共引网络、知识图谱构造、语义搜索接口等诸多应用的多模态功能。

Kaggle 上的 arXiv 数据集是什么样的

这是一个包含 170 多万篇理工科(STEM)学术论文的 arXiv 数据集和元数据。目前,开发者已经更新了 5 个版本,从第一版的 arXiv 元数据集(arXiv metadata)到最新版本的 arXiv 数据集,包含的论文数量越来越多,范围也更广。该数据集将每周更新一次。

第一版的 arXiv 元数据。

该数据集是原始 arXiv 数据的镜像,存储量高达 1.1TB,并且还会继续增加。数据集仅提供了 json 格式的元数据文件,它包含每篇论文的相关条目,具体如下:

  • id:arXiv ID,可用于访问论文;

  • submitter:论文提交者;

  • authors:论文作者;

  • title:论文标题;

  • comments:论文页数和图表等其他信息;

  • journal-ref:论文发表的期刊;

  • doi:数字对象标识符;

  • abstract:论文摘要;

  • categories:论文在 arXiv 系统的所属类别或标签;

  • versions:论文版本。

此外,用户可以通过以下两个链接直接在 arXiv 上访问每篇论文:

  • https://arxiv.org/abs/{id}:包含摘要和进一步链接的论文页面;

  • https://arxiv.org/pdf/{id}:论文 PDF 下载页面。

批量访问

用户可以在谷歌云存储(Google Cloud Storage, GCS)bucket gs://arxiv-dataset 上免费获取全部 PDF 论文,或通过谷歌 API json documentation 和 xml documentation 也可以获取。

PDF 论文被分组到 tarpdfs 文件夹的几个. tar.gz 文件中,具体如下所示:

tarpdfs/arXivpdf1001001.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001001.tar.gz) tarpdfs/arXivpdf1001002.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001002.tar.gz) tarpdfs/arXivpdf1001003.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001003.tar.gz) Which are chunks 1, 2 and 3 for month 1001 (2010-01).

此外,用户可以使用 gsutil 工具将数据下载到本地计算机中。

arXiv 将 170 多万篇论文打包放在 Kaggle 上,更方便了用户获取和下载论文。有网友表示:「此举棒极了!」

与此同时,也有人提出要重视「同行评审」的参与。

对此,你怎么看呢?

参考链接:

https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

https://www.kaggle.com/Cornell-University/arxiv

转载请联系 机器之心 公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

170多万篇论文,存储量达1.1 TB,Kaggle上线arXiv完整数据集相关推荐

  1. 为什么名校论文发表率更高?研究人员刷了160万篇论文数据发现:只是因为劳动力多...

    白交 发自 凹非寺 量子位 | 公众号 QbitAI 为什么研究机构越知名,它发表的论文越多? 最新研究表明,无关天赋,无关声望,只是因为他们拥有更多的劳动力. 来自科罗拉多大学博尔德分校的研究人员, ...

  2. 【论文相关】1.1 T 的 arXiv 数据集:170 万篇论文,可以看到下辈子

    By 超神经 内容提要:近日,arXiv 将 170 万+ 篇的论文,打包成数据集,放在了 kaggle 平台,以后访问和下载论文,就更方便了.该数据集目前大小 1.1 TB 左右,而且之后还会随着每 ...

  3. kaggle数据集_ArXiv170万篇论文数据集上线Kaggle!

    大数据文摘出品 学术圈的朋友对ArXiv肯定都不陌生. 在将近30年的时间里,ArXiv通过公开访问学术文章为公众和研究社区提供了一个更高效的学术成果沟通平台,从物理学到计算机科学的许多子学科,以及介 ...

  4. CV十年发展之观察:1.5万篇论文透视「业界」与「学界」,到底谁更胜一筹?...

    视学算法报道 转载自:机器之心 编辑:杜伟 为了调查计算机视觉领域业界赞助的研究所占的比例,以及它们对该领域产生的影响,加拿大约克大学的一位博士生分析了 2010 至 2019 十年间 Top-5 计 ...

  5. 一场直播教你深挖6万篇论文+50万学者信息,瓜分10万元奖金

    日前,由"未来杯AI挑战赛"发起,智谱·AI与AI TIME联合承办的"未来杯-智谱人工智能科技探索赛"正火热进行中.本次直播将由比赛主办人员针对赛题进行bas ...

  6. 有人统计了2万篇论文发现:想增加引用量,最好少说「黑话」

    本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载 编辑:蛋酱 BERT.GAN.LSTM 都是些什么东西?对自己没有点信心,最好不要制造这么多新单词. 如果你想让自己 ...

  7. 用两万篇论文告诉你:机器学习在过去五年中发生了什么

    arXiv.org 是一个专门收集物理学.数学.计算机科学与生物学论文预印本的网站.数据显示,截至 2014 年底的时候,arXiv 已经达到了一百万篇以上的论文藏量,并且还在以每月 8000 篇的速 ...

  8. 计算机视觉sci需要什么水平论文,计算机视觉博士一般几篇论文_林达华博士_林达华视觉...

    2019年,计算机视觉领域,你推荐哪些综述性的文章? ...期待更多CVer在FGIA领域作出有影响力的工作,更多FGIA信息可参见也欢迎相关领域同学进入 旷视南京研究院 参与相关课题的研究... 如 ...

  9. 6个月为50篇AI论文写摘要,网友:这有啥,我曾被要求1.5小时内复现一篇论文...

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨机器之心 编辑丨极市平台 导读 快速阅读论文是研究人员不可或缺 ...

最新文章

  1. 微电子科学与工程要学计算机吗,微电子科学与工程专业适合女生学习吗
  2. 网络营销专员表示网络营销中设置不当会影响蜘蛛爬虫对网站抓取
  3. gearman简介及安装使用
  4. Libra教程之:Libra testnet使用指南
  5. 外星人台式电脑_谈谈4万人民币的外星人R9台式机值不值得购买
  6. 郓城天气预报软件测试,郓城天气预报15天
  7. mysql+inser+select_解析MySQL中INSERT INTO SELECT的使用
  8. laravel 记录sql语句
  9. java 单链表反转_Java实现单链表翻转详解
  10. 学python能赚钱吗-哪种Python程序员最赚钱?爬虫数据告诉你!
  11. python模块-time,datatime
  12. 关注Linux防火墙之介绍iptables与ufw命令
  13. python大牛是什么水平_yield--Python大牛必须掌握的高端语法
  14. 010editor 11.01 破解
  15. 1人30天44587行代码,分享舍得网开发经验【修订版】
  16. 鼠标手势插件--smartUp
  17. pycharm正则表达式检索
  18. 算法艺术(一):Hello world
  19. uni-app 超详细教程(一)(从菜鸟到大佬)
  20. android键盘还是讯飞输入,讯飞输入法BiuBiu键盘又添神仙操作 分类自定义排序来了...

热门文章

  1. 摩尔线程推出首款数据中心级全栈功能GPU:MTT S2000
  2. 一流科技完成5000万人民币A轮融资,高瓴创投独家领投
  3. 2021第一融!第四范式完成D轮7亿美元融资
  4. 信息保留的二值神经网络IR-Net,落地性能和实用性俱佳 | CVPR 2020
  5. 李沐亲授加州大学伯克利分校深度学习课程移师中国,现场资料新鲜出炉
  6. 无需成对示例、无监督训练,CycleGAN生成图像简直不要太简单
  7. 不甘心只做输入工具,搜狗输入法上线AI助手,提供智能服务
  8. 一个小小的AI训练营竟然卧虎藏龙
  9. 思必驰发布AI芯片,透视智能语音企业的商业化历程
  10. TensorFlow支持Unicode,中文NLP终于省心了