一、创建并打开DSW实验室

前往天池实验室即可创建并进入你的实验室。在执行这一步之前需要确保已经登录了阿里云和天池账号。进入之后点击我的实验室,点击左侧新建选择PAI-DSW(免费5小时GPU哦~),进入之后等待几秒后我们会看到如下页面:如上图所示,左侧是DSW实验室的⽂件区,在这⾥你可以看到在你的实验室⾥的所有⽂件夹和⽂件。双击⽂件夹即可进入这个⽂件夹。中间是⼯作区,所有被打开的⽂件都会在⼯作区显示出来。右侧是计算资源区域,在这⾥你可以看到你当前使⽤的资源类型。点击右边计算资源区的箭头,即可弹出资源详情,点击切换按钮就可以进行CPU和GPU环境的切换,如下图所示:

在⽂件资源管理区的顶部还有4个按钮,从左到右分别对应的是:打开DSW Launcher启动器,新建⽂件夹,上传⽂件以及刷新当前⽂件夹。

在⽂件夹左侧还有⼀栏Tab,每个图标从上到下分别代表了:⽂件资源管理器,案例代码,正在运⾏的Notebook,命令⾯板,在⼯作区打开的Tab。

了解了DSW的环境以后,然后我们回到DSW Launcher启动器,也就是⼯作区默认打开的界⾯,我们可以看到cpu环境下和gpu环境下以及对应的kernel环境,可以根据自己的需求进行选择。

二、创建一个notebook实例

以GPU环境下为例,在工作区默认打开的界面,然后点击Notebook区域中的PyTorch为例,如下所示:

点击了PyTorch这个图标之后,DSW实验室就会⾃动为我们创建⼀个ipynb notebook⽂件。我们在左侧的资源管理器中也会看到。如下图所示:

这样我们就成功的创建了⼀个Notebook了。相信熟悉Notebook的你到这⼀步就很清楚之后怎么操作了~
如果你以前没有⽤过也没关系,继续往下看。

三、NLP算法大赛数据导入

⽤⿏标点击第⼀个框框(我们下⾯以Cell称呼),我们就可以开始从只读模式进⼊编辑模式开始写代码了。

数据获取

首先您需要在天池大赛官网报名,我们直接打开数据下载地址,看到的是这样一个页面:

打开后,我们发现提供了训练集数据,测试集数据,sub提交样例的下载链接。

基于DSW的NLP比赛数据获取方式:

  • 直接将数据下载至本地,再通过本地进行数据上传
  • 通过!wget xxxx(所需数据的链接)进行下载,但是注意只能在CPU环境下,GPU环境不支持联网
#1.训练集数据下载
!wget https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip
#2.解压缩包
!unzip train_set.csv.zip

拷贝上方的命令至cell后,我们按下 shift + enter回⻋ 这两个键,就可以看到我们的执⾏结果了,如下图所示:

数据读取

import pandas as pd
train_df = pd.read_csv('train_set.csv',sep = '\t')
train_df.head()

至此,我们接下来就可以愉快的进行模型训练啦~

四、模型训练

可以根据自身需求进行CPU or GPU环境以及kernel配置的选择。
以下我以GPU环境下kernel选择PyTorch进行为例:

准备工作:

  • 选择了GPU,当然要看看显卡配置了呀~
    !nvidia-smi
  • 查看磁盘剩余空间~
    !df -h
  • 查看内存占用
    !free -h
  • 安装所需的库(!pip install 库名 --user)
 !pip install transformers --user

训练模型

很好,现在你已经熟悉了DSW环境。可以编写代码自行进行模型的训练了。

  • 首先安装所需的库后,按下 shift + enter回⻋ 这两个键,一步步运行,就可以看到我们的执⾏结果了:
# Count Vectors+RidgeClassfier
import pandas as pd
from sklearn.linear_model import RidgeClassifier
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import f1_score
train_df = pd.read_csv('data/train_set.csv',sep='\t')
test_df = pd.read_csv('data/test_a.csv')
test_df.shape
(50000, 1)
vectorizer = CountVectorizer(max_features=3500)
train_test = vectorizer.fit_transform(all_data_df['text'])
train_len = train_df.shape[0]
train_count = train_test[:train_len]
test_count = train_test[train_len:]
clf = RidgeClassifier()
num = int(train_len*0.9)
clf.fit(train_count[:num], train_df['label'].values[:num])val_pred = clf.predict(train_count[num:])
print(f1_score(train_df['label'].values[num:], val_pred, average='macro'))
0.8256729738074418

这样,你就掌握了DSW最基本的创建Notebook,便携代码和运⾏代码的⽅式。可以愉快地获取数据进行模型的训练了~

小白如何使用DSW玩转天池NLP算法大赛相关推荐

  1. “达观杯”NLP算法大赛再启航,丰厚奖金、直通Offer等你来拿!

    来源:达观数据 本文约1258字,建议阅读3分钟. "达观杯"是由达观数据主办的全国前沿人工智能和大数据技术竞赛,此届"达观杯"以文本智能处理为主题. 人工智能 ...

  2. python画简便的图-最适合小白学的花色玩Python折线图|画个天气预报

    原标题:最适合小白学的花色玩Python折线图|画个天气预报 欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习.问答.求职,一站式搞定! 对商业 ...

  3. 天池NLP学习赛(1)赛题理解

    天池NLP学习赛(1)赛题理解 题目 题目类型:新闻文本分类(字符识别问题)链接 数据: 赛题数据为新闻文本,并按照字符级别进行匿名处理,数字编码形式呈现.整合划分出14个候选分类类别:财经.彩票.房 ...

  4. python画双折线图-最适合小白学的花色玩Python折线图|画个天气预报

    原标题:最适合小白学的花色玩Python折线图|画个天气预报 这是菜鸟学Python的第102篇原创文章 前面写一篇关于数据可视化的入门开篇,简单的介绍了一下Matplotlib的使用(),今天我们进 ...

  5. 天池NLP中文预训练模型赛来了!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale赛事 主办单位:阿里云,CLUE,乐言科技 自从2017年具有划时代意义的Tr ...

  6. 别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(19.11.21更新)

    推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...

  7. 别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(2020.4.14更新)...

    推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...

  8. 别再搜集面经啦!小夕教你斩下NLP算法岗offer!

    推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...

  9. 干货 | NLP算法岗大厂面试经验与路线图分享

    最近有好多小伙伴要面经(还有个要买简历的是什么鬼),然鹅真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面试来说,作者发现根本不是面经中说的样子 ...

最新文章

  1. 500元辛苦费,求一C#算法,自由定义表达式
  2. 消防验收找问题,一般就是这些了!
  3. 销量赶超娇兰、SK-II的林清轩,能带领国产护肤品奔赴高端化吗?
  4. mysql 磁盘组_AIX使用LV创建ASM磁盘组
  5. MariaDB Java Client 1.1.0 发布
  6. Redisson框架快速入门
  7. 个人作业2——英语学习APP的案例分析
  8. SQL Server 合并复制遇到identity range check报错的解决
  9. linux关于bashrc与profile的区别(转)
  10. 安装oracle创建的数据库实例,oracle创建数据库实例
  11. 多项式拟合,模型的复杂度以及权重的变化
  12. leancloud 怎么绑定域名_云引擎支持绑定加速域名 | LeanCloud 八月变化
  13. 美团外卖饿了么百度外卖竞品分析报告
  14. Windows Mobile 进阶系列.第二回.初窥.NET CF类型加载器
  15. 国内手机市场遭遇寒风,智能手机企业激战千元机
  16. 如何基于 APISIX 迭代数字智联平台
  17. 基于C90标准的C语言开发工具
  18. 2021年4月19日 深圳头条后台开发实习面试(一面)(含总结)
  19. 关于RC阻容复位电路的问题
  20. [转]从 .NET 开发人员的角度理解 Excel 对象模型

热门文章

  1. ENVI软件里的遥感知识之Open As模块光学传感器(一)
  2. 提权—Linux 定时任务环境变量数据库
  3. 鸡尾酒疗法(信息学奥赛一本通-T1072)
  4. cs231n 课程作业 Assignment 3
  5. 给排水管网系统的特性
  6. 数字人技术在金融业的优势与挑战
  7. 136 基于单片机RFID智能一卡通扣费充值系统设计【毕设课设】
  8. fmod控制音量master group
  9. 通信网络单元定级报告怎么写?定级报告模板范文分享
  10. PDF监制章java实现方式