文章目录

  • ==Google colab具体操作过程==
    • 问题1
    • 问题2
  • ==AutoDL==
    • 问题1 无卡开机
  • ==思腾云使用==
    • 基础信息
    • 如何租用服务器?
    • 如何上传代码以及运行程序?
    • 操作服务器的方式?
      • pycharm方式
      • Xshell的形式
    • 配置环境
      • 关系
      • conda
  • 常用Linux命令?
    • 问题1 libSM.so.6 和 libXrender.so.1
    • 问题2:运行代码出现的
    • 问题3:镜像保存问题
    • 问题4:xshell退出后远程程序不执行 nohup实现
    • 问题5:xshell退出后远程程序不执行 screen实现
    • 问题6:Linux错误日志的查看
    • 问题7:torch与cuda版本不匹配的问题 3090
    • 问题8:关于镜像打包的问题?
    • 问题9:如果训练使用的是在网盘中实现?
    • 问题10:程序运行固定轮次 训练结束?
    • 问题11:实验过程记录

Google colab具体操作过程

Google colab
免费的;
具体使用步骤是:
https://blog.csdn.net/weixin_44498476/article/details/107700730 (参考1)
https://blog.csdn.net/Sciws/article/details/124739341
https://zhuanlan.zhihu.com/p/386162610
https://www.zhihu.com/question/266242493/answers/updated
弊端:最多可以连续使用12个小时,超时会自动将虚拟机回收;
个人看来:可以把其当做调代码测试的工具,也可以当做练习技能的过程。
找到一个不错的解决方式,可以试试最后一个连接,可以今天搞搞看。

失败了,更多的时候分配不到GPU。

问题1

参考1
按照博客操作,自己的实验运行了1小时49分钟。
保持电脑没有关闭,没有息屏,只能运行1小时49分钟;
具体的执行指令是:

1. 加载云盘,使得结果存储在google云盘中
from google.colab import drive
drive.mount('/content/drive')2. 用于切换运行文件夹目录
%cd /content/drive/MyDrive/google drive的上传实验文件夹名字3. 运行某个训练或测试代码
%run 运行文件名

问题2

GPU被占用的情况,说明google colab白嫖不容易。

AutoDL

问题1 无卡开机

选择开启实例的方式为无卡模式开机,

用于上传代码、修改代码都可以使用,但是这时候不能使用GPU。

思腾云使用

基础信息

网站地址:https://cloud.aiserver.cn/

帮助信息:

账号注册以及登录:网站:https://cloud.aiserver.cn/login

如何租用服务器?


在算力市场实现租借。

如何上传代码以及运行程序?

上传代码通过Xshell,xftp实现;

操作服务器的方式?

pycharm方式

参考
连接操作需要使用专业版,但我的是社区版 故此没有尝试。

导出pycharm运行环境

导出环境pip freeze > 文件名.txtfreeze = 表示冻结的意思文件名.txt = 表示最终存储的文件
Xshell的形式

租借服务器后会生成链接 比如ssh的链接
链接形式是:ssh -p 端口号 用户名@ip地址

具体的配置过程

配置环境

关系
conda

参考
参考1

在看下conda版本与服务器的区别 没有本质关系

下载sh文件wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
执行sh文件bash Miniconda3-latest-Linux-x86_64.sh
初始化source miniconda3/bin/activateconda init
验证安装成功conda -V 输出版本号
创建虚拟环境conda create -n xhj114 python=3.8
激活环境conda activate 环境名
安装cuda对应版本的pytorchconda install pytorch torchvision torchaudio pytorch-cuda=11.6 -c pytorch -c nvidia
报错修改为修改镜像源conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/查看相关镜像源conda config --show镜像源恢复,恢复成原来的样子 默认conda config --remove-key channels
重新尝试下载包:install pytorch torchvision torchaudio pytorch-cuda=11.6
  1. 安装anaconda的时候,没有换安装路径。

  2. Linux关于anaconda配置环境的相关命令:
    参考

查看版本号conda --version
查看虚拟环境conda info -e 或者 conda env list
创建虚拟环境conda create -n 环境名字
激活虚拟环境conda activate 环境名字
退出虚拟环境conda deactivate
查看当前虚拟环境安装的包conda list -n[环境名字]  或者 激活对应环境 conda list

环境配置:

配置环境 采用国内镜像pip install -r environment.txt -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.compip install -r environment.txt -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.compip install -i https://pypi.tuna.tsinghua.edu.cn/simple  opencv-python scikit-learn
更新pip 使用国内镜像pip install  --upgrade pip -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

采用整体导入的形式,会出现各种各种的问题,于是决定单个包安装。

pip install ipython==7.28.0 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.compip install opencv-python -i https://pypi.mirrors.ustc.edu.cn/simple/conda create -n xhj112 python==3.8
  1. xshell 停止程序运行
    暂停python程序运行 CTRL + Z
    终止python程序运行 CTRL + C

常用Linux命令?

切换到根目录cd /
查看日志文件内容tail -n xx 日志文件名字从尾部输出xx行内容head -n xx 日志文件名字从头部输出xx行内容
查看正在运行的进程top
ps 命令提供了正在运行的进程的完整列表,并根据选项来进行格式化。ps -aux
kill 命令:kill 命令将使用给定的进程ID一次终止一个进程kill xxx

问题1 libSM.so.6 和 libXrender.so.1

解决方式
ImportError: libSM.so.6: cannot open shared object file: No such file or directory

解决方式:apt-get install libsm6

ImportError: libXrender.so.1: cannot open shared object file: No such file or directory

解决方式:apt-get install libxrender1

问题2:运行代码出现的

突然的连接断开;

问题3:镜像保存问题


23.1.12 测试:
在服务器没有运行的时候 保存过一次镜像可以保存;
服务器运行过程中,保存镜像不成功;
最后服务器停止保存镜像还是不成功,可能是网站卡的缘故。不太清楚了。

问题4:xshell退出后远程程序不执行 nohup实现

使用nohup实现。

最开始形式nohup python 文件名 &
换一种形式:nohup python -u Job.py > log113.log 2>&1 &nohup python -u xxx.py > log113.log 2>&1 &nohup python -u train_xxx5.py > log113.log 2>&1 &nohup python -u train_x4_112.py > log115.log 2>&1 &nohup python -u predict_xxx5.py > log113test.log 2>&1 &在后台运行test.py程序,并将所有的结果(不管是报错还是输出)实时快速地输入到output.log文件中,就算关闭与linux的链接,程序照样执行直到其自己结束。

运行命令后会出现:
ignoring input and appending output to ‘nohup.out’

已证实 程序可以运行。

问题5:xshell退出后远程程序不执行 screen实现

安装apt-get install yum
新开启一个screen窗口yum install screen -y出现错误 后续执行变成apt-get install screen -y
新建一个xxx窗口screen -s xxx

这个没有搞懂。

问题6:Linux错误日志的查看

错误出现形式:
第一次 - epoch4 模型保存是1.12 20:50 ,epoch74 模型保存是 1.13 4:03 之后就停止了; 整体运行到78停止;
第二次 依旧如此 模型训练到epoch74就结束了。感觉应该不是程序的问题;整体运行到77停止;
第三次 依旧如此 模型训练到epoch74就结束了
前三次使用的都是2080T的显卡,
第四次使用的是3090的显卡 也出现了模型停止保存到情况,停下来的地方是146epoch;

参考
相同的问题,博客说是因为内存不够;

问题7:torch与cuda版本不匹配的问题 3090

卸载torchpip uninstall torch
安装torchpip install torch-1.0.0-cp36-cp36m-win_amd64.whl
下载 torchpip install torch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7

3090的cuda是11.7版本 需要搭配torch1.13.0版本

pip install pytorch1.13.0 torchvision0.14.0 torchaudio==0.13.0 cudatoolkit=11.7

问题8:关于镜像打包的问题?

远程服务器运行时,打包镜像会出现程序运行异常的问题;
建议程序没有运行的时候打包镜像;这样速度会快一点;

问题9:如果训练使用的是在网盘中实现?

如果训练是在网盘中实现,则需要创建不同的文件夹进行训练。
如果在同一个文件中,则会出现多个主机,处理同一个文件的情况。
可以实现创建多个xhj文件夹 训练不同的模型。

问题10:程序运行固定轮次 训练结束?

GeForce RTX 2080Ti
内存:15G 显存:11G 硬盘:50G
epoch = 200 batchsize = 2 停止结束的是77轮 模型保存到74

GeForce RTX 3090
内存:30G 显存:24G 硬盘:50G
epoch = 200 batchsize = 4 停止结束的是146 轮 模型保存到144

Tesla V100- SXM2-32GB
内存:60G 显存:32G 硬盘:50G
应该可以跑完整个模型了。
segnet 模型 不能跑batchsize = 4 会内存溢出。

内存的缘故吗?
加大一倍的内存 然后模型保存的更多了。

问题11:实验过程记录

使用GPU3090

Google colab-思腾云相关推荐

  1. Google Colab 免费GPU服务器使用教程 挂载云端硬盘

    一.前言 二.Google Colab特征 三.开始使用 3.1在谷歌云盘上创建文件夹 3.2创建Colaboratory 3.3创建完成 四.设置GPU运行 五.运行.py文件 5.1安装必要库 5 ...

  2. Google Colab——用谷歌免费GPU跑你的深度学习代码

    Google Colab简介 Google Colaboratory是谷歌开放的一款研究工具,主要用于机器学习的开发和研究.这款工具现在可以免费使用,但是不是永久免费暂时还不确定.Google Col ...

  3. Google Colab使用教程

    简介 Google Colaboratory是谷歌开放的云服务平台,提供免费的CPU.GPU和TPU服务器. 目前深度学习在图像和文本上的应用越来越多,不断有新的模型.新的算法获得更好的效果,然而,一 ...

  4. 用 Python 使用 Google Colab?岂止是炫酷

    选自Medium 作者:Towards AI Team 机器之心编译 机器之心编辑部 Google Colab 是一个免费的 Jupyter 环境,用户可以用它创建 Jupyter notebook, ...

  5. 20 种小技巧,玩转 Google Colab

    选自 | amitness.com 作者 | Amit Chaudhary 转自 | 机器之心 编辑 | 陈萍 Google Colab 给广大的 AI 开发者提供了免费的 GPU,你可以在上面轻松地 ...

  6. 在 Google Colab 中使用 OpenCV 进行图像处理简介

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在这篇文章中,我们将实现如何使用 OpenCV 在 google ...

  7. Google colab: 修改系统时间 change system time

    Google colab对于机器学习来说非常好用,有免费的GPU可以用. 注意:一个Google colab的实例最长可以持续12小时,窗口关闭后只会继续跑90分钟. 但是因为服务器并不在国内,所以系 ...

  8. 独家 | 教你使用Keras on Google Colab(免费GPU)微调深度神经网络

    作者:LONG ANG 翻译:闫晓雨 校对:丁楠雅 本文约2300字,建议阅读7分钟. 本文将指导您如何使用Google上的Keras微调VGG-16网络. 简介 在CPU上训练深度神经网络很困难.本 ...

  9. Google Colab 使用教程(1)

    Google Colab免费GPU使用教程(一) 免费用户只能看到二级目录,子目录看不到了 !cd /content/YOLOv5_with_BiFPN !pwd !cd YOLOv5_with_Bi ...

  10. Google Colab使用详细教程

    Google Colab使用详细教程 使用教程真的很全面,而且通俗易懂 参考: https://juejin.im/post/5c05e1bc518825689f1b4948 https://clou ...

最新文章

  1. python操作文件open_python:open/文件操作
  2. mysql给数据做排名_mysql给数据统计做排名
  3. 最短路径问题 --- Dijkstra算法详解
  4. Codeforces Round #716 (Div. 2) D(随机算法)
  5. 人工智能超强面经:文本检测与GAN篇(含答案)
  6. 关于springMVC传参问题
  7. bootstrap文件不能被识别_如何使用npm安装bootstrap
  8. Gem5在全系统(FS)模式下运行自己的测试程序
  9. 【U8+】用友U816.1版本和天高联用,不显示“实施导航”功能模块
  10. linux网页防篡改软件,蓝盾网页防篡改系统
  11. JAVA获取word书签内容_Java 操作Word书签(一):添加、删除、读取书签
  12. apicloud中阿里云推送使用
  13. Python 断言的使用
  14. javascript设置网页快捷键
  15. Python爬虫之爬取网站图片
  16. 在绩效评估中使用 360 反馈
  17. springboot+Thymeleaf生成PDF
  18. Abstract Introduction
  19. 详解Lodash中的fp实现
  20. Android高德地图使用自定义指南针

热门文章

  1. Ardupilot chibios编译,启动,main函数学习(2)
  2. pythonista官网-Pythonista中文文档
  3. 基于STM32的智能健康监测手环
  4. 简单的认识dll授权加密
  5. 【转载】关于 .Net 逆向的那些工具:反编译篇
  6. 动力电池编码_电动汽车动力电池编码制度
  7. 求大家推荐一款好用的天气预报软件华为ma_硬磕到底!华为、字节跳动入局搜索市场,与百度正面刚...
  8. [搞笑]CPU煎蛋法
  9. XShell免费版的安装配置教程以及使用教程—解决“WARNINGThe remote SSH server rejected X11 forwarding request.“警告
  10. 关于python无法显示中文的问题:SyntaxError: Non-ASCII character '\xe4' in file test.py on line 3, but no encoding