【Coggle 30 Days of ML】汽车领域多语种迁移学习挑战赛(2)

任务

Just Do It！

1.中文分词：jieba

编辑

2.日语分词：nagisa

任务

任务2：文本分析与文本分词
- 步骤1：使用jieba对中文进行分词；
- 步骤2：使用negisa对日语进行分词；

Just Do It！

1.中文分词：jieba

支持4种模式

精确模式：试图将句子最精确地切开，适合文本分析；（不加参数，默认是精确模式）
全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义（cut_all=True）
paddle模式：利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词。同时支持词性标注。（应该是百度提供的分词模型）（use_paddle=True）
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词（jieba.cut_for_search）

示例代码：


seg_cut = jieba.cut('北京故宫圆明园颐和园，风景都很好看!',cut_all=True)#全模式
print('/'.join(seg_cut))seg_cut = jieba.cut('北京故宫圆明园颐和园，风景都很好看!',cut_all=False)#精确模式
print('/'.join(seg_cut))seg_list = jieba.cut("北京故宫圆明园颐和园，风景都很好看!") #默认是精确模式
print("/".join(seg_list)) seg_list = jieba.cut_for_search('北京故宫圆明园颐和园，风景都很好看!')#搜索引擎模式
print('/'.join(seg_list))seg_list = jieba.cut('北京故宫圆明园颐和园，风景都很好看!',use_paddle=True)#Paddle模式
print('/'.join(seg_list))

对应到比赛中，代码为

train_cn['words'] = train_cn['原始文本'].apply(lambda x:' '.join(i for i in jieba.lcut(x)))

2.日语分词：nagisa

GitHub - taishi-i/nagisa: A Japanese tokenizer based on recurrent neural networks

示例代码：

import nagisatext = 'Pythonで簡単に使えるツールです'
words = nagisa.tagging(text)
print(words)
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞# Get a list of words
print(words.words)
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']# Get a list of POS-tags
print(words.postags)
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']

对应到比赛中，代码为：

# 文本分词
train_jp['words'] = train_jp['原始文本'].apply(lambda x: ' '.join(nagisa.tagging(x).words))
train_eg['words'] = train_eg['原始文本'].apply(lambda x: x.lower())test_jp['words'] = test_jp['原始文本'].apply(lambda x: ' '.join(nagisa.tagging(x).words))
test_eg['words'] = test_eg['原始文本'].apply(lambda x: x.lower())

结果为：

比赛对英文的处理

其实比赛中英文不需要处理，因为英文单词本身就是以空格区分的，所以本身就相当于做了分词了。只需要将大写统一转换为小写就行了。

OK，Fine！

【Coggle 30 Days of ML】汽车领域多语种迁移学习挑战赛(2)相关推荐

汽车领域多语种迁移学习挑战赛-Coggle 30 Days of ML
前言依然是coggle的7月竞赛学习活动,本博客围绕着汽车领域多语种迁移学习挑战赛展开. 比赛地址:http://challenge.xfyun.cn/topic/info?type=car-mul ...
NLP竞赛参与打卡记录：汽车领域多语种迁移学习挑战赛
NLP竞赛参与打卡记录:汽车领域多语种迁移学习挑战赛本博客为Coggle 30 Days of ML(22年7月)竞赛打卡活动记录页面,会记录本人的打卡内容.活动链接为:活动链接任务1:比赛报名 ...
【练一下2】汽车领域多语种迁移学习挑战赛[2022.7.8]
文章目录任务1:报名比赛步骤1:报名比赛http://challenge.xfyun.cn/topic/info?type=car-multilingual&ch=ds22-dw-zmt0 ...
竞赛：汽车领域多语种迁移学习挑战赛（科大讯飞）
目录一.赛事背景二.赛事任务三.评审规则 1.数据说明 2.评估指标四.准备阶段 1.报名比赛 2.查看训练集和测试集字段类型五.文本分析与文本分词 1.使用jieba对中文进行分词 2.使 ...
【Coggle 30 Days of ML】汽车领域多语种迁移学习挑战赛(4)
目录任务 Just Do It! 1.Bert模型入门 1.1前置知识 1.2导入预训练模型 1.3训练数据处理 1.4数据及读取及模型定义 2.Bert文本分类 2.1开始读取数据集 2.2加载模 ...
【Coggle 30 Days of ML】糖尿病遗传风险检测挑战赛(2)
目录任务 Just Do It! 1.特征工程 2.特征筛选 3.K折交叉验证任务任务4:特征工程(使用pandas完成) 步骤1:统计每个性别对应的[体重指数].[舒张压]平均值 ...
【Coggle 30 Days of ML】糖尿病遗传风险检测挑战赛(1)
目录任务 Just Do It! 1.导包 2.读取数据并进行分析 3.数据预处理 4.模型选择 5.预测 6.评估指标 7.得到提交文件任务任务1:报名比赛步骤1:报名比赛2022 iFLY ...
糖尿病遗传风险检测挑战赛（Coggle 30 Days of ML）
本次跟着Coggle 30 Days of ML学习算法竞赛,而不是基于现成baseline来操作,预计重新熟悉并学习 Pandas.Numpy 处理数据 Sklearn.LightGBM 模型使用 ...
Coggle 30 Days of ML【打卡】广告-信息流跨域ctr预估
Coggle 30 Days of ML[打卡]广告-信息流跨域ctr预估任务介绍赛题介绍广告推荐主要基于用户对广告的历史曝光.点击等行为进行建模,如果只是使用广告域数据,用户行为数据稀疏,行为 ...

【Coggle 30 Days of ML】汽车领域多语种迁移学习挑战赛(2)

任务

Just Do It！

1.中文分词：jieba

2.日语分词：nagisa

【Coggle 30 Days of ML】汽车领域多语种迁移学习挑战赛(2)相关推荐

最新文章

热门文章