有时我们想要使用 Colab 训练自己的数据集(非 Colab 自带数据集),那么首先必须要上传数据集到 Colab 平台。
Colab 平台直接上传文件速度非常慢,即使你上传的是压缩后的文件。本文将介绍两种方法解决 Colab 上传数据集慢的问题。

一、谷歌云上传

Colab 支持挂载谷歌云盘,所以可以把要上传的文件保存到谷歌云盘中。训练深度学习模型时,使用保存在谷歌云中的数据集。当然,谷歌云盘的上传速度一般也很慢。下面介绍两种方法,快速将文件保存到谷歌云中。

1. 复制分享的谷歌云链接

如果你找到了其他人通过谷歌云盘分享的文件,那么打开别人的分享链接直接星标复制即可。

以下载 Market1501 数据集为例,找到了 Market1501 的谷歌云链接,打开链接,点击详情,

可以查看文件的详细信息

点击加注星标,就可以在已加星标中看到该文件,在该文件上右键复制,就可以将文件添加到你的谷歌云盘。


在 Colab 上点击挂载谷歌云盘或者输入命令

from google.colab import drive
drive.mount('/content/drive/')

即可挂载谷歌云盘。

2. 使用 multicloud 工具

multicloud 可以实现百度云、Onedrive 和 谷歌云之间的文件转移,30G是免费的。
MultCloud官网地址

二、通过 Kaggle API 进行下载(推荐)

有办法直接高速下载数据集到 Colab 吗?答案是有,借助 Kaggle API 就可以实现数据集的高速下载。而且,Kaggle 上的数据集资源相等丰富。

  1. 打开 kaggle

打开 kaggle 网页的数据集 https://www.kaggle.com/datasets,搜索你需要下载的数据集

2. 点击 Copy API command

以下载 MARS 数据集为例,点击 Copy API command,会复制如下命令kaggle datasets download -d twoboysandhats/mars-motion-analysis-and-reidentification-set

  1. 获取 API Token

登录 Kaggle 账户,点击头像->Account->Create New API Token,会生成一个 json 文件,里面包含 username 和 key 的键值对。


4. Colab 中下载数据集

在 Colab 中安装 kaggle 包,并生成 kaggle 用户名密码 json 文件 。其实,就是根据上面获取的 API Token 生成新的 json 文件,默认位置在 '/content/kaggle.json'

在 Jupyter 中依次执行下面的命令,token = {"username":"XXX","key":"XXXXXXXXXXXX"}中的 xxxx 根据刚才生成的 API Token 进行填写。

pip install kaggle
import json
token = {"username":"XXX","key":"XXXXXXXXXXXX"}
with open('/content/kaggle.json', 'w') as file:json.dump(token, file)
!mkdir -p ~/.kaggle
!cp /content/kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json
!kaggle config set -n path -v /content

在 Colab 的 Jupyter 中输入复制得到的 Copy API command 进行下载

!kaggle datasets download -d twoboysandhats/mars-motion-analysis-and-reidentification-set

如果需要把数据集保存到谷歌云盘中,可以使用 !cp /content/datasets/twoboysandhats/mars-motion-analysis-and-reidentification-set/mars-motion-analysis-and-reidentification-set.zip /content/drive/MyDrive,将数据集复制到谷歌云盘中。

实践表明:几分钟内就可以把这个 6G 多的数据集下载完毕,默认下载位置是 content
Tip: 当然如果你在 Kaggle 中通过创建数据集的方法上传了数据集或者代码文件,用 Copy API command 也可以实现在 Colab 的高速下载。

参考文献

Kaggle数据集上传到Google Colab上,亲测绝对有效

Colab 快速上传数据集方法相关推荐

  1. Magento教程 12:Magento快速上传大量商品的方法

    利用.CSV档上传大量商品是最佳选择 在Magento上传大量商品到时,经常会遇到的几个问题,非常耗时间.出现错误.有部分商品是缺货状态. 当你有上百个不同属性的商品,而且只有部分商品是现货供应的情况 ...

  2. Typora+PicGo+又拍云实现图片快速上传的两种方法

    Typora+PicGo+又拍云实现图片快速上传 第一步:注册个又拍云账户,加入又拍云联盟 又拍云 官网注册地址:又拍云联盟 - 开发者帮助计划,为开发者加速 - 又拍云 注册认证后有 10G 永久免 ...

  3. 解决CoLab上传数据集失败或速度慢的问题

    上传数据集到OneDrive上(实测接近700M的文件上传速度会有点慢,不过比在CoLab上强多了) 右键单击数据集选择下载,然后暂停下载(若想下载就不用暂停),然后复制下载链接地址 在CoLab中下 ...

  4. 请问:怎么实现大文件快速上传?

    关注公众号 前端开发博客,领27本电子书 回复加群,自助秒进前端群 前言 大文件快速上传的方案,相信你也有过了解,其实无非就是将 文件变小,也就是通过 压缩文件资源 或者 文件资源分块 后再上传. 本 ...

  5. 大文件如何快速上传?

    前言 大文件快速上传的方案,相信你也有过了解,其实无非就是将 文件变小,也就是通过 压缩文件资源或者 文件资源分块 后再上传. 本文只介绍资源分块上传的方式,并且会通过 前端(vue3 + vite) ...

  6. .NET技术 ASP.NET中常用的文件上传下载方法(多文件上传)

    文件的上传下载是我们在实际项目开发过程中经常需要用到的技术,这里给出几种常见的方法,本文主要内容包括: 1.如何解决文件上传大小的限制 2.以文件形式保存到服务器 3.转换成二进制字节流保存到数据库以 ...

  7. ASP.NET中文件上传下载方法集合

    asp.net 2008-08-23 21:10:35 阅读0 评论0   字号:大中小 订阅 ASP.NET中文件上传下载方法集合 文件的上传下载是我们在实际项目开发过程中经常需要用到的技术,这里给 ...

  8. ASP.NET中常用的文件上传下载方法

    ASP.NET中常用的文件上传下载方法 文件的上传下载是我们在实际项目开发过程中经常需要用到的技术,这里给出几种常见的方法,本文主要内容包括: 1.如何解决文件上传大小的限制 2.以文件形式保存到服务 ...

  9. [转]ASP.NET中常用的文件上传下载方法

    1.如何解决文件上传大小的限制 2.以文件形式保存到服务器 3.转换成二进制字节流保存到数据库以及下载方法 4.上传Internet上的资源 第一部分:     首先我们来说一下如何解决ASP.NET ...

最新文章

  1. Unity电子游戏优化终极指南 The Ultimate Guide to Video Game Optimisation
  2. 论Oracle 11g数据库备份与恢复策略
  3. 转 如何利用客户端缓存对网站进行优化?
  4. 简单实现Dedecms RSS全站输出
  5. ${}和#{}的区别
  6. java程序一写文件就崩溃_为什么直接修改java的.class文件会导致程序崩溃
  7. java复制的函数会报错,2 面试题之面向对象
  8. Windows 恢复环境(Windows RE模式)
  9. 2020知道python语言应用答案_2020知到Python语言应用答案章节期末答案
  10. Kafka核心源码解析 - KafkaApis源码解析
  11. 代码也能“杀”虫:此虫,真虫非Bug也
  12. SSH深度历险(十一) AOP原理及相关概念学习+xml配置实例(对照注解方式的优缺点)...
  13. PyTorch中查看GPU使用情况以及一些重要函数
  14. linux和unix的关系
  15. Java 操作Word书签:用文本、图片、表格替换书签
  16. AHP权重计算方法案例
  17. word2007删除页眉
  18. 关键词搜索-关键词搜索引擎工具-关键词搜索排行榜
  19. Google的图片处理库和条码处理库、汉字转拼音库
  20. 《当咖啡与甘蓝汁竞争》:产品是负熵,帮助客户更好进化

热门文章

  1. cordova 实现第三方登录及分享,qq,微信,微博
  2. 各类无次数限制的免费API接口,再也不怕找不到免费API了
  3. iOS开发之在地图上绘制出你运动的轨迹
  4. 微信浏览器 rem 不适配的解决方案
  5. 国内首家专注影视文化产业的数藏平台“神缘”即将上线
  6. 目录结构及其文本编辑器
  7. C语言:成绩等级划分!
  8. 微信小程序下载文件wx.saveFile
  9. 怎么控制物联网卡的流量使用?
  10. 如何撰写发明专利?(全流程解析+要点总结)