【Coggle 30 Days of ML】汽车领域多语种迁移学习挑战赛(2)
目录
任务
Just Do It!
1.中文分词:jieba
编辑
2.日语分词:nagisa
任务
- 任务2:文本分析与文本分词
- 步骤1:使用jieba对中文进行分词;
- 步骤2:使用negisa对日语进行分词;
Just Do It!
1.中文分词:jieba
支持4种模式
- 精确模式:试图将句子最精确地切开,适合文本分析;(不加参数,默认是精确模式)
- 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义(cut_all=True)
- paddle模式:利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。(应该是百度提供的分词模型)(use_paddle=True)
- 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词(jieba.cut_for_search)
示例代码:
seg_cut = jieba.cut('北京故宫圆明园颐和园,风景都很好看!',cut_all=True)#全模式
print('/'.join(seg_cut))seg_cut = jieba.cut('北京故宫圆明园颐和园,风景都很好看!',cut_all=False)#精确模式
print('/'.join(seg_cut))seg_list = jieba.cut("北京故宫圆明园颐和园,风景都很好看!") #默认是精确模式
print("/".join(seg_list)) seg_list = jieba.cut_for_search('北京故宫圆明园颐和园,风景都很好看!')#搜索引擎模式
print('/'.join(seg_list))seg_list = jieba.cut('北京故宫圆明园颐和园,风景都很好看!',use_paddle=True)#Paddle模式
print('/'.join(seg_list))
对应到比赛中,代码为
train_cn['words'] = train_cn['原始文本'].apply(lambda x:' '.join(i for i in jieba.lcut(x)))
2.日语分词:nagisa
GitHub - taishi-i/nagisa: A Japanese tokenizer based on recurrent neural networks
示例代码:
import nagisatext = 'Pythonで簡単に使えるツールです'
words = nagisa.tagging(text)
print(words)
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞# Get a list of words
print(words.words)
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']# Get a list of POS-tags
print(words.postags)
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']
对应到比赛中,代码为:
# 文本分词
train_jp['words'] = train_jp['原始文本'].apply(lambda x: ' '.join(nagisa.tagging(x).words))
train_eg['words'] = train_eg['原始文本'].apply(lambda x: x.lower())test_jp['words'] = test_jp['原始文本'].apply(lambda x: ' '.join(nagisa.tagging(x).words))
test_eg['words'] = test_eg['原始文本'].apply(lambda x: x.lower())
结果为:
比赛对英文的处理
其实比赛中英文不需要处理,因为英文单词本身就是以空格区分的,所以本身就相当于做了分词了。只需要将大写统一转换为小写就行了。
OK,Fine!
【Coggle 30 Days of ML】汽车领域多语种迁移学习挑战赛(2)相关推荐
- 汽车领域多语种迁移学习挑战赛-Coggle 30 Days of ML
前言 依然是coggle的7月竞赛学习活动,本博客围绕着汽车领域多语种迁移学习挑战赛展开. 比赛地址:http://challenge.xfyun.cn/topic/info?type=car-mul ...
- NLP竞赛参与打卡记录:汽车领域多语种迁移学习挑战赛
NLP竞赛参与打卡记录:汽车领域多语种迁移学习挑战赛 本博客为Coggle 30 Days of ML(22年7月)竞赛打卡活动记录页面,会记录本人的打卡内容.活动链接为:活动链接 任务1:比赛报名 ...
- 【练一下2】汽车领域多语种迁移学习挑战赛[2022.7.8]
文章目录 任务1:报名比赛 步骤1:报名比赛http://challenge.xfyun.cn/topic/info?type=car-multilingual&ch=ds22-dw-zmt0 ...
- 竞赛:汽车领域多语种迁移学习挑战赛(科大讯飞)
目录 一.赛事背景 二.赛事任务 三.评审规则 1.数据说明 2.评估指标 四.准备阶段 1.报名比赛 2.查看训练集和测试集字段类型 五.文本分析与文本分词 1.使用jieba对中文进行分词 2.使 ...
- 【Coggle 30 Days of ML】汽车领域多语种迁移学习挑战赛(4)
目录 任务 Just Do It! 1.Bert模型入门 1.1前置知识 1.2导入预训练模型 1.3训练数据处理 1.4数据及读取及模型定义 2.Bert文本分类 2.1开始读取数据集 2.2加载模 ...
- 【Coggle 30 Days of ML】糖尿病遗传风险检测挑战赛(2)
目录 任务 Just Do It! 1.特征工程 2.特征筛选 3.K折交叉验证 任务 任务4:特征工程(使用pandas完成) 步骤1:统计每个性别对应的[体重指数].[舒张压]平均值 ...
- 【Coggle 30 Days of ML】糖尿病遗传风险检测挑战赛(1)
目录 任务 Just Do It! 1.导包 2.读取数据并进行分析 3.数据预处理 4.模型选择 5.预测 6.评估指标 7.得到提交文件 任务 任务1:报名比赛 步骤1:报名比赛2022 iFLY ...
- 糖尿病遗传风险检测挑战赛(Coggle 30 Days of ML)
本次跟着Coggle 30 Days of ML学习算法竞赛,而不是基于现成baseline来操作,预计重新熟悉并学习 Pandas.Numpy 处理数据 Sklearn.LightGBM 模型使用 ...
- Coggle 30 Days of ML【打卡】广告-信息流跨域ctr预估
Coggle 30 Days of ML[打卡]广告-信息流跨域ctr预估 任务介绍 赛题介绍 广告推荐主要基于用户对广告的历史曝光.点击等行为进行建模,如果只是使用广告域数据,用户行为数据稀疏,行为 ...
最新文章
- 8个可以提高数据科学工作效率、节省宝贵时间的Python库
- 第十二周项目一-实现复数类中的运算符重载(2)
- 2.7 json 模块
- Netstat命令(windows下)
- 常用的生物学数据库及网站介绍,你都了解了吗?
- matlab如何响两声,matlab发出声音
- 朴素贝叶斯算法_机器学习第三篇:详解朴素贝叶斯算法
- SAP Fiori Elements - fragment load roundtrip
- 基于机器视觉的散热器钎焊缺陷检测系统研发
- cesium 取消光晕
- 【资讯】国内 42 所一流大学综合排名出炉!清北之后谁是国内第三?
- c语言程序从源代码到二进制机器码,C语言源代码转变为可执行程序的过程
- 各种redhat版本下载
- vue子父组件之间的传值
- LSF集群基本概念介绍
- 推荐个电脑桌面便签软件工具:好用便签,简单、免费、无广告、电脑手机同步、支持团队共享,用来做桌面便签笔记、备忘录、待办日程任务清单很多。
- wpf初学者-wpf控件简单介绍
- 200行代码为大家解读这个Github冠军项目背后的定时器
- mobilefacenet caffe2WK
- 联发科天玑800适配鸿蒙系统,联发科天玑800U 5G芯片加持,Redmi Note9实际表现究竟如何?...
热门文章
- 搜狗输入法用户id非法,表情包无法搜到图片,显示异常.......
- linux源码在线阅读工具
- 使用dom4j来解析xml文件或xml字符串
- 【转】经典的劝酒令和挡酒词
- 洛谷 P2884 【[USACO07MAR]每月的费用Monthly Expense】
- 冬天洗衣不动手,这几款智慧洗衣机可以帮到你
- java ssm野生动物公益保护网站系统
- SwiftUI 人工智能教程之图像识别植物或花朵通过图片和相机
- 揭秘跨境电商亚马逊测评的培训骗局!千万不要上当受骗!
- GitHub 上受欢迎的 Android UI Library 整理(一)