最近想训练一个模型,奈何自己电脑的GPU太拉胯根本带不动,用cpu跑跑一整天才跑完一个epoch,真的心累,于是乎,我把目光投向了云GPU。然后kaggle的云GPU瞬间吸引了我的目光,好家伙,不要钱还好操作,这波羊毛难道不薅?!冲冲冲!!!

kaggle官网: 地址

(一)注册

虽说薅羊毛很快乐,但是刚开始薅的时候还是要花点儿功夫的,注册的时候我就折腾了一会儿。
1.点击右上角“Register”注册
2.选择邮箱
3.人机验证
这里一直让我填写验证码:Captcha must be filled out。我死活都刷不出验证,根本就没有让我填验证码的地方。于是我参考了这篇博客:kaggle注册方法

4.填写验证码
这时候就能刷新出来人机验证了,人机验证之后会向你发送验证码,注意自己邮箱接收的邮件。填写完验证码就注册成功了,然后就可以登录kaggle了。

(二)创建nootbook

登录进去之后就是你的主页,点击create来创建自己的nootbook:

创建好之后就是这样,可以给你的notebook取个名字:

(三)上传数据集

因为我想用自己的数据集来训练,所以需要本地上传自己的数据集。当然也可以使用kaggle上的数据集。
1.单击右上方的Add data

这时候出现的界面显示你可以上传一个dataset或者添加kaggle上的dataset

2.上传自己的数据集
点击upload a dataset,为你的dataset取个名字,然后选择browse files上传文件。最好将文件压缩之后上传,这样比较快。上传压缩包后kaggle会自动解压。

上传完成之后点击Create

这时候出现这个界面,这会儿正在处理你的数据集,不要点击别的地方,不然小心前功尽弃。

3.查看自己的数据集
在Data的Input里面可以查看到自己上传的数据集,kaggle已经解压好了:

(四)编写代码开始训练

我是本地写好了代码,原本我想省事儿直接将我本地的python文件上传上去运行,但是由于文件中的路径不符合文件在kaggle上的路径,而且一旦上传了文件就无法在kaggle上进行修改了,所以我折腾了几次放弃了,选择在notebook中重新写代码。
附:有的博文讲到可以通过git将自己的代码上传到github上,然后gitclone可以运行自己的代码,但是这个方法我没有研究。想通过这个方法运行自己代码的可以研究研究。

1.在notebook里编写代码
为了省事儿,我直接把写好的python代码复制粘贴到notebook中。如果你也先这样操作,注意粘贴过去的代码中的,原本从本地导入的包,这时候就不要出现了。比如我这里的:在本地是从nets文件夹下的unet文件中导入UNet类,像这种语句就不要出现了,直接注释就成。

这里多说一嘴,如果你要是粘代码去运行,注意按自己代码的执行顺序粘贴,这样你可以直接run all去执行cell中的代码,如果不按顺序那你单独逐个执行cell也行。
2.配置运行环境
在settings里配置环境:

如果想要使用GPU加速的话,在Accelerator选择GPU。如果是第一次用的话,会出不来这个选项,需要你手机号验证,然后按照它的提示按步骤验证一下即可。

3.运行
写好代码配好环境后,单击run就可以运行,单个符号的是run current cell,双符号的是run all
在下面的console里可以看到运行输出结果

可以查看设备情况

4.离线训练
参考文章:地址
如果训练模型需要很久,这时候就要后台跑了,并且要保存训练出来的模型。
点击右上角的Save Version,给version取个名,注意这里底下的要选择Save & Run All(不过它默认选项就是这个)
在左下角的Advanced Settings设置Version,按需选择:

之后点击save保存。
这时候左下角的活动就会出现各个的保存:

5.注意
1)每个账号每周只有36h的GPU加速时间
2)有的参考文章说只能连续跑9h,这个我没有验证,我开完训练之后就去睡觉了,早上的时候项目运行确实中断了,提示说cannot fetch,我不知道是这个只能连续跑9h的原因,还是我们学校断网的原因。
3)有的参考文章说如果选择GPU加速连续运行的时间更短,这个我也没有验证。

(五)查看输出结果

打开之前创建的notebook,就可以查看相关信息了。

在data里可以看到训练的输出

(六)下载输出结果

我想要把训练的权值文件下载下来,可以直接点击权值文件并下载,也可以下载整个文件夹,但是下载整个文件夹会很慢,参考这篇博客:地址
对输出文件进行压缩,然后下载

(七)总结

不得不说,kaggle真的好用。接下来有空准备研究怎么使用git/gitclone运行写好的代码。
谢谢kaggle!

使用kaggle GPU跑自己的模型相关推荐

  1. 用gpu跑_免费用GPU跑深度学习模型——如何获得极链AI云A100显卡

    如果你刚开始接触深度学习,还没准备好买什么显卡,那么你唯一的选择就是按需付费的GPU租赁服务.虽然很多平台都提供GPU显卡的体验,但数量有限,时间限制也很大,反正我去了几次都没用上.更重要的是,性能限 ...

  2. 利用多 GPU 加速深度学习模型训练

    01 - 前言 深度学习模型通常使用 GPU 训练,因为 GPU 具有相比 CPU 更高的计算能力,以 Tesla V100 为例,使用 Tensor Core 加速的半精度浮点计算能力达到 125 ...

  3. 13个月才跑通GitHub模型,机器学习科研入门太难了吧

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 金磊 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI & ...

  4. 你正在使用GPU进行CNN类模型训练,突然发生了内存溢出的错误,你可以通过哪些方式来进行解决?

    你正在使用GPU进行CNN类模型训练,突然发生了内存溢出的错误,你可以通过哪些方式来进行解决? 在GPU内存发生溢出(memory overflow)的时候.我们首先想到的肯定是增加GPU的资源,比如 ...

  5. 解决win10使用GPU跑程序遇到的一系列报错

    解决win10使用GPU跑程序遇到的一系列报错 安装cupy包 使用cupy包的时候报错 ImportError: DLL load failed: 找不到指定的模块. 卸载cuda11.5.安装cu ...

  6. 使用谷歌Colab(Colaboratory)免费GPU训练自己的模型及谷歌网盘无限容量(Google drive)申请教程

    使用谷歌Colab(Colaboratory)免费GPU训练自己的模型及谷歌网盘无限容量(Google drive)申请教程 谷歌的colab(Colaboratory)是谷歌为全世界学术研究者免费提 ...

  7. Kaggle泰坦尼克号生存预测挑战——模型建立、模型调参、融合

    Kaggle泰坦尼克号生存预测挑战 这是kaggle上Getting Started 的Prediction Competition,也是比较入门和简单的新人赛,我的最好成绩好像有进入top8%,重新 ...

  8. 本科生搞AI在线崩溃:3个月才跑通GitHub模型,机器学习科研入门太难了吧

    金磊 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI "机器学习,太难了!" "3个月才跑通GitHub模型代码,要崩溃了!" "还要跟博 ...

  9. 在windows下使用MxNet用GPU跑代码时候出现MXNET_CUDNN_AUTOTUNE_DEFAULT to 0 to disable问题

    在windows下使用MxNet用GPU跑代码时候出现MXNET_CUDNN_AUTOTUNE_DEFAULT to 0 to disable问题 [14:58:40] c:\ci\libmxnet_ ...

最新文章

  1. 告别 CNN?一张图等于 16x16 个字,计算机视觉也用上 Transformer 了
  2. 深圳睿思特舒适旅游运营管理_毛大庆新年祭出flag2020年管理面积超越WeWork,联办行业2019逆势换挡不减速 | 新办公...
  3. 面试题16: 数值的整数次方
  4. 浅析volatile原理及其使用
  5. android自定义圆圈动画,自定义view实现动画数字圆圈
  6. JDK5.0的11个主要新特征
  7. 【操作系统】用户可通过三种方式使用计算机
  8. 第三次PR培训(添加常用效果和转场)
  9. Clone 1. 肿瘤克隆进化之前世今生
  10. 阿里云导出的镜像raw转换成vmdk格式工具
  11. xcode7的那些坑-“Your binary is not optimized for iPhone 5” (ITMS-90096) when submitting
  12. ink 合约篇(一)| 部署 ink 合约
  13. wps流程图直线上怎么填字_流程图走起!使用WPS文字快速制作美观的流程图
  14. 管理心理学试题库【1】
  15. Masking Adversarial Damage: Finding Adversarial Saliency for Robust and Sparse Network
  16. DEJA_VU3D - Cesium功能集 之 078-对象材质:图片轨迹线
  17. Springboot实现图书馆座位预约管理系统之自习室预约占座系统源码
  18. 直到黎明 Until Dawn 后感
  19. Tribal项目介绍
  20. 用C++弹奏《起风了》

热门文章

  1. 关于win10连网显示“网络使用较旧的安全标准。建议连接到其他网络”的解决方法
  2. access连接机床_机床如何使用四大系统实现网络化管理
  3. 机器学习和深度学习综述
  4. 编写SPI DAC驱动程序
  5. 成为软件行业的福尔摩斯,还是苏格兰场?
  6. 紫光旗下企业正和美光科技谈判存储技术授权及设立合资公司
  7. 宝妈刷单被骗125万元,我们该如何避免被骗?
  8. c# picturebox 图像拖拽和缩放
  9. Java中常见的几种任务调度框架对比
  10. font-awesome_Font Awesome如何成为Kickstarter上资金最多的软件项目-我们可以从中学到什么