↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

Datawhale干货

作者:卢玉洁,辽宁大学硕士  张帆,天津大学硕士

之前参加数据竞赛和做算法实践项目,让人苦恼的就是数据量比较大的时候,电脑配置往往跟不上。其实除了自己买内存、显卡(受到贫穷限制),也可以通过Goggle的Colab、以及阿里云,腾讯云的免费算力来跑代码(真香),因为这次参加了nlp入门赛事,被问到算力的问题比较多,今天就整理一下我是如何用阿里云的免费算力来参加数据竞赛的,其他平台流程类似,希望对大家有帮助。

一、进入阿里云实验室

我这次参加比赛用的是阿里云的DWS平台,和Google的Colab类似,不用配置深度学习环境,同时有免费GPU资源,比较适合打比赛。下面我尽量从小白的角度讲下我是如何用DWS来打比赛的。首先从网页进入DWS地址:

https://tianchi.aliyun.com/notebook-ai/?spm=5176.13048197.0.0.53167bbeyAh58A

点击红框处按钮即可进入到PAI DSW 实验室了。

首次启动DSW 的过程中,由于安全性等因素可能需要用户稍微等一会儿。若长时间仍无法进入notebook 环境,可以刷新下网页尝试重新启动。

二、打开DSW平台

进入之后点击我的实验室,进入之后等待几秒后我们会看到如下页面:

如上图所示,左侧是DSW实验室的⽂件区,在这⾥你可以看到在你的实验室⾥的所有⽂件夹和⽂件。双击⽂件夹即可进入这个⽂件夹。中间是⼯作区,所有被打开的⽂件都会在⼯作区显示出来。右侧是计算资源区域,在这⾥你可以看到你当前使⽤的资源类型。点击右边计算资源区的箭头,即可弹出资源详情,点击切换按钮就可以进行CPU和GPU环境的切换,如下图所示:

在⽂件资源管理区的顶部还有4个按钮,从左到右分别对应的是:打开DSW Launcher启动器,新建⽂件夹,上传⽂件以及刷新当前⽂件夹。

在⽂件夹左侧还有⼀栏Tab,每个图标从上到下分别代表了:⽂件资源管理器,案例代码,正在运⾏的Notebook,命令⾯板,在⼯作区打开的Tab。

了解了DSW的环境以后,然后我们回到DSW Launcher启动器,也就是⼯作区默认打开的界⾯,我们可以看到cpu环境下和gpu环境下以及对应的kernel环境,可以根据自己的需求进行选择。

三、创建一个notebook实例

以GPU环境下为例,在工作区默认打开的界面,然后点击Notebook区域中的PyTorch为例,如下所示:

点击了PyTorch这个图标之后,DSW实验室就会⾃动为我们创建⼀个ipynb notebook⽂件。我们在左侧的资源管理器中也会看到。如下图所示:

这样我们就成功的创建了⼀个Notebook了。

⽤⿏标点击第⼀个框框(我们下⾯以Cell称呼),我们就可以开始从只读模式进⼊编辑模式开始写代码了。

相信熟悉Notebook的你到这⼀步就很清楚之后怎么操作了~如果你以前没有⽤过也没关系,继续往下看。

四、数据获取(以NLP比赛为例)

4.1 数据获取

步骤1:首先需要在新闻文本分类挑战赛报名,在赛题与数据栏中,点击红框下载数据。

下载链接:https://tianchi.aliyun.com/competition/entrance/531810/information

步骤2:打开所下载的文件,发现下载的并非是数据集本身,而是提供了训练集数据,测试集数据,sub提交样例的下载链接。

步骤3:基于DSW的NLP比赛数据获取方式:

  • 方式1:直接将数据下载至本地,再通过本地进行数据上传

将步骤2获取的训练集和测试集链接复制到浏览器中,下载数据集。下载后,上传至文件区。

  • 方式2:通过!wget xxxx(所需数据的链接)进行下载,但是注意只能在CPU环境下,GPU环境不支持联网。具体操作如下:

首先,创建一个CPU环境下kernel选择Python 3的notebook。

运行以下代码块。

# 1.训练集数据下载
!wget https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip
# 2.解压缩包
!unzip train_set.csv.zip# 1.训练集数据下载
!wget https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a.csv.zip
# 2.解压缩包
!unzip test_a.csv.zip

拷贝上方的命令至cell后,我们按下 shift + enter回⻋ 这两个键,就可以看到我们的执⾏结果了,如下图所示:

4.2 数据读取

import pandas as pd
train_df = pd.read_csv('train_set.csv',sep = '\t')
train_df.head()

同样,训练集也已经可读取,这里不再做赘述。至此,我们接下来就可以愉快的进行模型训练啦~

五、训练模型

选择以Count Vectors+RidgeClassfier模型为例,对nlp赛事进行实践。训练模型前可以根据自身需求进行CPU or GPU环境以及kernel配置的选择。

  • 在这里,我们新建一个GPU环境下kernel选择PyTorch的文件。

  • 在创建好的notebook中,首先安装所需的库

#  Count Vectors+RidgeClassfier
import pandas as pd
from sklearn.linear_model import RidgeClassifier
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import f1_scor
  • 读取数训练集及测试集数据

train_df = pd.read_csv('train_set.csv',sep='\t')
test_df = pd.read_csv('test_a.csv')
  • 我们查看一下数据的大小

test_df.shape
#  (50000, 1)
  • 然后可以建模训练

#  建模训练
vectorizer = CountVectorizer(max_features=3500)
all_data_df = pd.concat([train_df,test_df],axis =0)
train_test = vectorizer.fit_transform(all_data_df['text'])
train_len = train_df.shape[0]
train_count = train_test[:train_len]
test_count = train_test[train_len:]
clf = RidgeClassifier()
num = int(train_len*0.9)
clf.fit(train_count[:num], train_df['label'].values[:num])

若页面如下图所示,并非报错,计算时间较长,请耐心等待即可。

  • 在测试集预测一下分数

#  最后在测试集预测一下分数
val_pred = clf.predict(train_count[num:])
print(f1_score(train_df['label'].values[num:], val_pred, average='macro'))

0.8256729738074418

这样,就掌握了如何用阿里云DWS创建Notebook,便携代码和运⾏代码的整个流程。可以愉快地用数据进行模型的训练了~

后台回复 DWS 获取,可下载文中代码和进群交流

“整理不易,三连

小白如何用免费GPU跑天池算法大赛!相关推荐

  1. 如何用免费GPU学习AI算法?这篇算法资源大集锦别错过

    上一次写了篇 1 AI Studio是什么 AI Studio 是百度提供的一个针对 AI 学习者的在线一体化开发实训平台.平台集合了 AI 教程,深度学习样例工程,各领域的经典数据集,云端的运算及存 ...

  2. 学AI买计算机,如何用免费GPU学习AI算法?这篇大集锦不要错过

    AI Studio是什么 AI Studio是百度提供的一个针对AI学习者的在线一体化开发实训平台.平台集合了AI教程, 深度学习样例工程, 各领域的经典数据集, 云端的运算及存储资源, 以及比赛平台 ...

  3. python算法教程百度云_如何用免费GPU学习AI算法?这篇算法资源大集锦别错过

    飞桨开发者投稿 上一次写了篇薅GPU百度AI Studio计算资源的文章,收到很多AI算法初学者私信,问我能不能补充一些AI Studio的学习资源.有求必应向来是我的风格,于是我加入了AI Stud ...

  4. 天池算法大赛思路和代码分享

    目录: 思路概述 1,数据探索 2,特征工程 3,机器学习模型的初步预测和特征工程 4,变量衍生和PCA降维 5,多模型融合预测 赛题介绍详见天池官网:UNiLAB智慧能源系统大数据分析赛 赛道2:不 ...

  5. Google Colab——用谷歌免费GPU跑你的深度学习代码

    Google Colab简介 Google Colaboratory是谷歌开放的一款研究工具,主要用于机器学习的开发和研究.这款工具现在可以免费使用,但是不是永久免费暂时还不确定.Google Col ...

  6. 小白如何使用DSW玩转天池NLP算法大赛

    一.创建并打开DSW实验室 前往天池实验室即可创建并进入你的实验室.在执行这一步之前需要确保已经登录了阿里云和天池账号.进入之后点击我的实验室,点击左侧新建选择PAI-DSW(免费5小时GPU哦~), ...

  7. 【亲测】跑深度学习模型:笔记本的RTX3060 6G vs Google colab免费GPU 速度比较

    简单测评 笔记本:thinkbook16p RTX3060标配 模型是FCN,跑的小数据集, 用的tensorflow 同样的数据和模型参数,我们来看看在两块GPU上的表现如何吧: 1.本地 RTX3 ...

  8. 国内免费GPU资源哪里找,让我告诉你最新的薅羊毛“秘籍”

    之前我在知乎介绍了两款练习人工智能算法的应用,都是谷歌的,当时就有网友在评论区提到了国内有百度的 AI Studio,于是产生了兴趣,恰好在那评论出现后几个星期,又看到了 AI Studio 推出了算 ...

  9. 总奖金 200 万的 AI Challenger 开赛,可申请免费 GPU 资源

    记者 | 周翔 8 月 14 日,创新工场.搜狗和今日头条联合宣布共同发起"AI Challenger 全球 AI 挑战赛".其中,CSDN 作为选手社区,为大赛提供支持.(更多赛 ...

最新文章

  1. 深度学习三巨头也成了大眼萌,这个一键转换动画电影形象的网站竟因「太火」而下线...
  2. 通用分页存储过程(转自邹建)
  3. 整型和浮点型的区别_C的基础内容:常量之数值型常量,适合新手的学习
  4. 2010年9月14日佛山大沥机楼网络故障日志
  5. 2021-10-06
  6. python命名元组
  7. [Winform]WebKit.Net使用
  8. 图片网站用什么服务器好,网站图片与框架放在不同服务器有哪些优缺点
  9. 分页插件PageHelper的使用方法
  10. BZOJ 1036: [ZJOI2008]树的统计Count
  11. 台式临床化学分析仪行业调研报告 - 市场现状分析与发展前景预测
  12. eclipse配置glassfish、将一个WEB项目部署到glassfigh
  13. 在idea或eclipse软件下配置Tomcat
  14. laravel input值必须不等于0_【第十一期】实现 Javascript 版本的 Laravel 风格参数验证器...
  15. 转专业申请加拿大计算机硕士,GPA低?教你如何成功申请加拿大硕士!
  16. 街头篮球Android和苹果,街头篮球手游ios和安卓数据可以互通吗?
  17. ios不能保存png_AnyTrans for iOS for Mac (强大的ios设备管理工具)
  18. 配饰 女生的第二件衣服
  19. scratch小猫钓鱼 电子学会图形化编程scratch等级考试四级真题和答案解析2021-9
  20. 【整理分享】2019年▪尔雅通识课▪《移动互联网时代的信息安全与防护》▪期末考试答案

热门文章

  1. modelsim中一个神奇又容易忽视的问题
  2. linux oracle修改编码utf8
  3. UI学习第二篇 (控件)
  4. 秦州:西瓜书 + 南瓜书 吃瓜系列 10. 集成学习(下)
  5. 谢文睿:西瓜书 + 南瓜书 吃瓜系列 4. 二分类线性判别分析
  6. 《C#精彩实例教程》小组阅读07 -- C#字符与字符串
  7. threshold 二值化的实现
  8. 【数据结构】最小生成树 Prim算法 Kruskal算法
  9. 【CTF】实验吧 疑惑的汉字
  10. 数据科学家:那些年,我都学过哪些编程语言…