小白如何使用DSW玩转天池NLP算法大赛
一、创建并打开DSW实验室
前往天池实验室即可创建并进入你的实验室。在执行这一步之前需要确保已经登录了阿里云和天池账号。进入之后点击我的实验室,点击左侧新建选择PAI-DSW(免费5小时GPU哦~),进入之后等待几秒后我们会看到如下页面:如上图所示,左侧是DSW实验室的⽂件区,在这⾥你可以看到在你的实验室⾥的所有⽂件夹和⽂件。双击⽂件夹即可进入这个⽂件夹。中间是⼯作区,所有被打开的⽂件都会在⼯作区显示出来。右侧是计算资源区域,在这⾥你可以看到你当前使⽤的资源类型。点击右边计算资源区的箭头,即可弹出资源详情,点击切换按钮就可以进行CPU和GPU环境的切换,如下图所示:
在⽂件资源管理区的顶部还有4个按钮,从左到右分别对应的是:打开DSW Launcher启动器,新建⽂件夹,上传⽂件以及刷新当前⽂件夹。
在⽂件夹左侧还有⼀栏Tab,每个图标从上到下分别代表了:⽂件资源管理器,案例代码,正在运⾏的Notebook,命令⾯板,在⼯作区打开的Tab。
了解了DSW的环境以后,然后我们回到DSW Launcher启动器,也就是⼯作区默认打开的界⾯,我们可以看到cpu环境下和gpu环境下以及对应的kernel环境,可以根据自己的需求进行选择。
二、创建一个notebook实例
以GPU环境下为例,在工作区默认打开的界面,然后点击Notebook区域中的PyTorch为例,如下所示:
点击了PyTorch这个图标之后,DSW实验室就会⾃动为我们创建⼀个ipynb notebook⽂件。我们在左侧的资源管理器中也会看到。如下图所示:
这样我们就成功的创建了⼀个Notebook了。相信熟悉Notebook的你到这⼀步就很清楚之后怎么操作了~
如果你以前没有⽤过也没关系,继续往下看。
三、NLP算法大赛数据导入
⽤⿏标点击第⼀个框框(我们下⾯以Cell称呼),我们就可以开始从只读模式进⼊编辑模式开始写代码了。
数据获取
首先您需要在天池大赛官网报名,我们直接打开数据下载地址,看到的是这样一个页面:
打开后,我们发现提供了训练集数据,测试集数据,sub提交样例的下载链接。
基于DSW的NLP比赛数据获取方式:
- 直接将数据下载至本地,再通过本地进行数据上传
- 通过!wget xxxx(所需数据的链接)进行下载,但是注意只能在CPU环境下,GPU环境不支持联网
#1.训练集数据下载
!wget https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip
#2.解压缩包
!unzip train_set.csv.zip
拷贝上方的命令至cell后,我们按下 shift + enter
回⻋ 这两个键,就可以看到我们的执⾏结果了,如下图所示:
数据读取
import pandas as pd
train_df = pd.read_csv('train_set.csv',sep = '\t')
train_df.head()
至此,我们接下来就可以愉快的进行模型训练啦~
四、模型训练
可以根据自身需求进行CPU or GPU环境以及kernel配置的选择。
以下我以GPU环境下kernel选择PyTorch进行为例:
准备工作:
- 选择了GPU,当然要看看显卡配置了呀~
!nvidia-smi
- 查看磁盘剩余空间~
!df -h
- 查看内存占用
!free -h
- 安装所需的库(!pip install 库名 --user)
!pip install transformers --user
训练模型
很好,现在你已经熟悉了DSW环境。可以编写代码自行进行模型的训练了。
- 首先安装所需的库后,按下
shift + enter
回⻋ 这两个键,一步步运行,就可以看到我们的执⾏结果了:
# Count Vectors+RidgeClassfier
import pandas as pd
from sklearn.linear_model import RidgeClassifier
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import f1_score
train_df = pd.read_csv('data/train_set.csv',sep='\t')
test_df = pd.read_csv('data/test_a.csv')
test_df.shape
(50000, 1)
vectorizer = CountVectorizer(max_features=3500)
train_test = vectorizer.fit_transform(all_data_df['text'])
train_len = train_df.shape[0]
train_count = train_test[:train_len]
test_count = train_test[train_len:]
clf = RidgeClassifier()
num = int(train_len*0.9)
clf.fit(train_count[:num], train_df['label'].values[:num])val_pred = clf.predict(train_count[num:])
print(f1_score(train_df['label'].values[num:], val_pred, average='macro'))
0.8256729738074418
这样,你就掌握了DSW最基本的创建Notebook,便携代码和运⾏代码的⽅式。可以愉快地获取数据进行模型的训练了~
小白如何使用DSW玩转天池NLP算法大赛相关推荐
- “达观杯”NLP算法大赛再启航,丰厚奖金、直通Offer等你来拿!
来源:达观数据 本文约1258字,建议阅读3分钟. "达观杯"是由达观数据主办的全国前沿人工智能和大数据技术竞赛,此届"达观杯"以文本智能处理为主题. 人工智能 ...
- python画简便的图-最适合小白学的花色玩Python折线图|画个天气预报
原标题:最适合小白学的花色玩Python折线图|画个天气预报 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业 ...
- 天池NLP学习赛(1)赛题理解
天池NLP学习赛(1)赛题理解 题目 题目类型:新闻文本分类(字符识别问题)链接 数据: 赛题数据为新闻文本,并按照字符级别进行匿名处理,数字编码形式呈现.整合划分出14个候选分类类别:财经.彩票.房 ...
- python画双折线图-最适合小白学的花色玩Python折线图|画个天气预报
原标题:最适合小白学的花色玩Python折线图|画个天气预报 这是菜鸟学Python的第102篇原创文章 前面写一篇关于数据可视化的入门开篇,简单的介绍了一下Matplotlib的使用(),今天我们进 ...
- 天池NLP中文预训练模型赛来了!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale赛事 主办单位:阿里云,CLUE,乐言科技 自从2017年具有划时代意义的Tr ...
- 别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(19.11.21更新)
推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...
- 别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(2020.4.14更新)...
推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...
- 别再搜集面经啦!小夕教你斩下NLP算法岗offer!
推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...
- 干货 | NLP算法岗大厂面试经验与路线图分享
最近有好多小伙伴要面经(还有个要买简历的是什么鬼),然鹅真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面试来说,作者发现根本不是面经中说的样子 ...
最新文章
- 500元辛苦费,求一C#算法,自由定义表达式
- 消防验收找问题,一般就是这些了!
- 销量赶超娇兰、SK-II的林清轩,能带领国产护肤品奔赴高端化吗?
- mysql 磁盘组_AIX使用LV创建ASM磁盘组
- MariaDB Java Client 1.1.0 发布
- Redisson框架快速入门
- 个人作业2——英语学习APP的案例分析
- SQL Server 合并复制遇到identity range check报错的解决
- linux关于bashrc与profile的区别(转)
- 安装oracle创建的数据库实例,oracle创建数据库实例
- 多项式拟合,模型的复杂度以及权重的变化
- leancloud 怎么绑定域名_云引擎支持绑定加速域名 | LeanCloud 八月变化
- 美团外卖饿了么百度外卖竞品分析报告
- Windows Mobile 进阶系列.第二回.初窥.NET CF类型加载器
- 国内手机市场遭遇寒风,智能手机企业激战千元机
- 如何基于 APISIX 迭代数字智联平台
- 基于C90标准的C语言开发工具
- 2021年4月19日 深圳头条后台开发实习面试(一面)(含总结)
- 关于RC阻容复位电路的问题
- [转]从 .NET 开发人员的角度理解 Excel 对象模型