1 相关知识了解

1.1 了解厂家

1.1.1 面向个人的平台

名称 特点
极链AI云 微信绑定送100,学生200
1024Lab云 便宜,国外,DBC支付(不知道是啥,不考虑)
矩池云GPU VNC远程访问图形化桌面,操作简单,gpu种类多,预装tf、pytorch等多种知名框架,高校教育版老师申请大优惠,适配pycharm
易学智能AI云 贵,但人性化
MistGPU云 便宜,配置了tf、pytorch等多种知名框架,中途关机暂停可以再开机使用
智星云 预装tf、pytorch等框架,略贵
BitaHub 赠送大方
极客云 略贵,可租出去
恒源云 评价很好,有近百元礼包

邀请注册,有注册尝试的同学可使用我的邀请链接注册,对你我都有好处~

  1. 恒源云
  2. 矩池云专属邀请码:mgLMBx6FjiWGNAO
  3. 极链AI云

1.1.2 大厂出品/通用服务器

名称 特点
colab 科学上网,内存只有256mb
谷歌云 科学上网,新用户送300刀
三丰云 不面向学生出租GPU
阿里云 三巨头之一
腾讯云 三巨头之一
华为云 三巨头之一
Azure 微软
AWS 亚马逊,可白嫖低性能云服务器

http://www.aliyunbc.com/newsinfo/1157113.html
停止实例

1.2 了解云服务器配置

相关参数:地域、计费方式、CPU、内存、带宽、系统盘、数据盘

1.2.1 地域节点

就近原则,理论上,用户距离云服务器地域越近,网络延迟越低,速度越快。当需要部署大型项目涉及负载均衡和高并发量等时,地域节点的影响会慢慢凸显。

1.2.2 计费方式

包年包月:一般适用于24小时在线服务(无特殊需求则选择这个方案,性价比高)
按量计费:间歇使用

1.2.3 cpu

CPU是服务器的一个核心,表示云服务器的运算能力。CPU数量越多,主频越高,CPU性能越优越,对业务处理的能力也就越高

1.2.4 内存

内存作为数据的中转站,内存越大,可用缓存也就越大,如果是网站,打开速度也就越快。

1.2.5 带宽

网络带宽越大,数据传输能力越强,可以同时支持的在线用户越多(建议优先选择5M带宽)

1.2.6 系统盘

系统盘是用来存储云服务器系统的,和家用电脑的C盘差不多,购买的服务器默认会提供的系统盘一般为40G。
性能方面 ESSD云盘 > SSD云盘 > 高效云盘 > 普通云盘

1.2.7 数据盘

数据盘是用户自行创建的,可以和购买云服务器时一起创建,也可以单独创建数据盘。一般数据小于20个G是不用去买数据盘的,放在系统盘即可,系统盘也可以回滚快照,和数据盘是一样的,所以不用担心数据丢失的问题,数据盘是给数据比较大的客户用的,当存储数据量较大时必须要挂载数据盘。

1.2.7 配置及适用场景

2 平台试用

2.1 极链AI云

参考指导手册

2.1.1 创建实例


讲实话,gpu规格型号有点少,11种。但我要求并不高,因此无所谓。

选择tensorflow2.4.1版本

对应默认使用的是ubuntu18.04操作系统的镜像。

创建成功!

2.1.2 xshell连接主机及Xftp进行文件下载和上传

参考文档
连接成功效果:

可直接拖拽进行拷贝复制:

2.1.3 VNC桌面可视化工具

参考链接
windows上先安装好viewer,实例中执行./vncserver.sh install安装server。

安装成功~
./vncserver.sh start tensorboard命令进行启动。

实例中启动成功~
window中启动viewer:VNC server需要填主机域名:映射的端口号(tx-nat.videojj.com:34968

启动成功~但好丑啊,而且好像并不便捷。

2.1.4 实战:基于ResNet实现高精度水果识别

2.1.5 jupyterLab中运行代码

参考链接

2.1.6 使用tensorboard

得有训练数据才可以进行可视化,目前暂无数据,不进行展示
参考链接

2.1.7 关机

关机中~:

关机完毕,还可以再次启动(停止计费但对主机系统没有影响)或释放。

2.1.8 综合评价

还可以!优点是学生优惠大,网盘容量大。

2.2 矩池云

参考指南文档

2.2.1 数据代码下载和网盘上传

速度还挺快,秒级

2.2.2 租用主机

型号很多,总体价格比极链云便宜,但极链云的配置好像要高一点。

运行起来了~

2.2.3 基础设备验证


python和tensorflow-gpu版本都是可用的。

2.2.4 JupyterLab终端中解压资源压缩包

复制链接打开网页,点击终端

USER_ID: 0, GROUP_ID: 0
(myconda) root@36444f34f408:/# cd /mnt/
(myconda) root@36444f34f408:/mnt# ls
MyMNIST.zip
(myconda) root@36444f34f408:/mnt# unzip MyMNIST.zip
Archive:  MyMNIST.zipcreating: MyMNIST/creating: MyMNIST/MNIST/creating: MyMNIST/MNIST/raw/inflating: MyMNIST/MNIST/raw/train-images-idx3-ubyte.gz  inflating: MyMNIST/MNIST/raw/train-images-idx3-ubyte  extracting: MyMNIST/MNIST/raw/t10k-labels-idx1-ubyte.gz  inflating: MyMNIST/MNIST/raw/t10k-labels-idx1-ubyte  inflating: MyMNIST/MNIST/raw/t10k-images-idx3-ubyte.gz  inflating: MyMNIST/MNIST/raw/train-labels-idx1-ubyte  inflating: MyMNIST/MNIST/raw/t10k-images-idx3-ubyte  extracting: MyMNIST/MNIST/raw/train-labels-idx1-ubyte.gz  creating: MyMNIST/MNIST/processed/inflating: MyMNIST/MNIST/processed/training.pt  inflating: MyMNIST/MNIST/processed/test.pt  inflating: MyMNIST/pytorch_mnist.ipynb  creating: MyMNIST/.ipynb_checkpoints/inflating: MyMNIST/.ipynb_checkpoints/pytorch_mnist-checkpoint.ipynb
(myconda) root@36444f34f408:/mnt# ls
MyMNIST  MyMNIST.zip
(myconda) root@36444f34f408:/mnt# cd MyMNIST
(myconda) root@36444f34f408:/mnt/MyMNIST# ls
MNIST  pytorch_mnist.ipynb
(myconda) root@36444f34f408:/mnt/MyMNIST# cd MNIST/
(myconda) root@36444f34f408:/mnt/MyMNIST/MNIST# ls
processed  raw
(myconda) root@36444f34f408:/mnt/MyMNIST/MNIST#

2.2.5 运行代码

安装缺少的包:

(myconda) root@36444f34f408:/mnt/MyMNIST/MNIST# pip install tqdm
Looking in indexes: https://mirrors.aliyun.com/pypi/simple/
Collecting tqdmDownloading https://mirrors.aliyun.com/pypi/packages/8a/c4/d15f1e627fff25443ded77ea70a7b5532d6371498f9285d44d62587e209c/tqdm-4.64.0-py2.py3-none-any.whl (78 kB)|████████████████████████████████| 78 kB 263 kB/s
Installing collected packages: tqdm
Successfully installed tqdm-4.64.0
(myconda) root@36444f34f408:/mnt/MyMNIST/MNIST#

运行:

保存模型:

# 保存训练好的模型
torch.save(net,'/mnt/MyMNIST/torch_mnist_model.pth')

2.2.6 监控硬件使用情况


可以查看机器的GPU、显存、CPU、内存、硬盘使用情况。

2.2.7 保存环境

保存环境十个很重要的操作,细节参考这个文档
保存的环境会以.snap结尾的文件存放在您的网盘中,因此,会占用您的网盘空间,如果网盘空间不足会导致保存失败。
保存环境后,下次租用机器时可以直接在我的环境中启动。


2.2.8 关机

只能停止租用并释放,不能继续重启继续前面的操作。
但可以保存环境后下一次租用时使用。有好有坏,坏是操作麻烦且占用网盘空间,好是因为可以随时保存环境版本以供租用其他机器时预装。

2.2.9 综合评价

比极链云稍微好一点好像,貌似要便宜一点。而且保存环境这一特性比较特殊,看似麻烦但可能也会在其他方面有优势。
缺点是网盘容量小,扩容费用稍高。

2.3 MistGPU

2.3.1 网盘情况

只有免费1GB,多出的部分按量计费,倒也不是很贵

2.3.2 租用服务器

可预装框架比较少,价格还偏贵的。
正在创建~

创建完成:

功能貌似较少。

2.3.3 终端连接

ssh:

界面倒有些花里胡哨。
**在线命令行:**直接在线打开,这个功能倒是比较方便。

2.3.4 进入jupyter开发环境


直接点击即可进入。

2.3.5 日常使用体验

  1. 服务器的信息比如预装的框架没有显示出来
  2. 文件管理比较隐蔽不好操作
  3. 没有服务器使用时长和扣费提示,容易花钱如流水

2.3.6 关机保存

点击关机之后会直接开始关机,没有缓冲,但貌似也没必要,因为可以无缝再次开机。

2.3.7 综合评价

界面稍微简陋,但功能也都还算比较全,价格偏贵。但在线终端还是比较方便的。

2.4 恒源云

粗看一下,卡很多,功能文档很全面,价格也很低,对学生很友好,有点心动

得完成全部任务才能领取礼包啊,所以必须得先充钱,离谱

因此,我也试验不了了。

3 进阶试用(分布式集群)

3.1 直接试用多机多卡(同步)

3.1.1 创建尝试


这里我配置了两台机器加入到集群,已连接便代表加入成功,可见平台自动给两台机器配置了内部可以相互通信的同网段IP,正如平台介绍所说:

3.1.2 创建实战


第二次创建之后,发现IP最后一位的数字往后顺延了,这就表明每次关机重开之后,IP都会有所改变。这就有点麻烦了,意味着每次开机之后各份代码的集群IP设置就要改变。
解决办法是:平台支持用户自己选用IP,不过目前不支持,客服说之后会支持。

但至少,训练成功了。

3.2 试用多机多卡(异步)

ParameterServerStrategy:租用了5台服务器加入分布式集群,注意集群IP设置。
实验环境没有任何问题,代码存在问题。coordinator报错。

如何选用GPU云服务器?相关推荐

  1. 什么是GPU云服务器?GPU服务器的cpu和普通CPU有什么区别?

    目前很多企业均会使用云计算服务,相比传统自建机房,使用云计算不仅仅能节约成本,还能享受到专业.高质量服务. 对于大量重复性计算,机器学习或者提供可视化3D服务的公司而言,使用GPU是必不可少的环节. ...

  2. 4月11日云栖精选夜读 | 阿里云异构计算发布:轻量级GPU云服务器实例VGN5i

    [点击订阅云栖夜读周刊] 阿里云发布了国内首个公共云上的轻量级GPU异构计算产品--VGN5i实例,该实例打破了传统直通模式的局限,可以提供比单颗物理GPU更细粒度的服务,从而让客户以更低成本.更高弹 ...

  3. gpu云服务器运行游戏_在滴滴云 GPU 服务器上使用NVIDIA NGX环境搭建

    1.NGX 简介 NVIDIA NGX是一个新的深度学习技术,将基于AI的加速和增强图像.视频处理的功能直接集成到应用程序中.NVIDIA NGX利用Tensor Core最大限度地提高其运行效率,因 ...

  4. gpu云服务器运行游戏_GPU云服务器可以挂载大型游戏吗?

    随着科技的发展,云服务器和网络游戏都是互联网发展的产物.现在随着网络的广泛发展和使用,云服务器和游戏都是现在比较火热的行业,云服务器基于云计算技术的发展,用于存放网站数据,在现在的生产工作中占据重要地 ...

  5. 可申请试用!GN4系列GPU云服务器重磅来袭

    超高性价比的算力资源来了! 百度智能云全新推出基于 A10 打造的 GN4 系列 GPU 云服务器 以及 vGPU 云服务器产品 弹性灵活.更具性能优势 从"图像渲染"到" ...

  6. GPU云服务器是什么?谷歌宣布将要推出GPU云服务器

    GPU云服务器是什么?其实GPU跟CPU差不多,只是性能强太多,用于云计算分布式计算平行计算.谷歌步云竞争对手后尘将推出服务器加GPU(Servers-plus-GPU),即宣布"谷歌云平台 ...

  7. GPU云服务器深度学习性能模型初探

    摘要: 本文根据实测数据,初步探讨了在弹性GPU云服务器上深度学习的性能模型,可帮助科学选择GPU实例的规格. 1 背景 得益于GPU强大的计算能力,深度学习近年来在图像处理.语音识别.自然语言处理等 ...

  8. 【产品活动】阿里云GPU云服务器年付5折!阿里云异构计算助推行业发展!

    摘要: 阿里云GPU云服务器全力支持AI生态发展,进一步普惠开发者红利,本周将会推出针对异构计算GPU实例GN5年付5折的优惠活动,希望能够打造良好的AI生态环境,帮助更多的人工智能企业以及项目顺利上 ...

  9. gpu云服务器运行游戏_滴滴云不甘寂寞,国内首发一款GPU云服务器

    北京时间9月1日,滴滴云发布基于NVIDIA Tesla A100 GPU的云服务器产品,据悉滴滴云是该型GPU云服务器产品的国内首发云厂商. 滴滴云基于A100 GPU的产品包括裸金属服务器(BMS ...

  10. 为什么选择 GPU 云服务器

    首先,GPU 云服务器(GPU Cloud Computing)是基于 GPU 的快速.稳定.弹性的计算服务,主要应用于深度学习训练/推理.图形图像处理以及科学计算等场景. GPU 云服务器提供和标准 ...

最新文章

  1. golang 切片 接口_Go 经典入门系列 18:接口(一)
  2. Android华容道之一步一步实现-2-图片分割
  3. matlab中print、fprintf、scanf、disp函数简要语法介绍
  4. 自定义webview,根据网页大小确定webview大小
  5. IT服务台的进化(2)--企业外部服务台的优缺点
  6. silverlight中如何方便在多个场景即Xaml文件之间随意切换?
  7. 使用 Docker Stack 部署多服务集群
  8. 学习:java原理—反射机制
  9. 设计灵感|色彩与形状巧妙运用在创意时尚海报设计中
  10. zoom怎么解除静音_如何召开一场Zoom视频会议
  11. Matlab R2010b 安装使用教程 【详细】
  12. 《jike--微服务架构核心20讲》笔记
  13. 滴滴6月或发布造车计划;头部App上线一键关闭 “个性化推荐 ”​;下载捆绑,“高速下载”竟为元凶 | EA周报...
  14. javascript实现锁定网页、密码解锁效果(屏幕保护效果)
  15. 笔记本电脑计算机怎么放在桌面,苹果电脑怎么把文件放在桌面
  16. 利用python处理pdf文本_Python用于NLP :处理文本和PDF文件
  17. git 相关别名配置
  18. 快速入池淘宝猜你喜欢方法技巧
  19. 图灵奖得主Yann LeCun的六十年
  20. C++课后作业 3. 教材习题4_8:定义Dog类,包含age和weight信息

热门文章

  1. 修改Ceph 监视器地址
  2. 百度的搜索引擎相关技术的分析
  3. 小白易学--ps拼接图片教程之照片拼图
  4. 【Windows Server 2019】DHCP服务器配置与管理——安装和配置DHCP服务 Ⅱ
  5. 测试自动化风险或成功的条款
  6. CSS 实现圆角梯形
  7. stm32L151低功耗学习——Alarm闹钟周期唤醒(10s/10min/10h)
  8. Oracle账号 Oracle官网登录下载资源账号密码共享
  9. php英文数字转为中文,利用PHP怎么将英文数字转换为阿拉伯数字
  10. 深入浅出ERC777合约