目录

任务

Just Do It!

1.中文分词:jieba

​编辑

2.日语分词:nagisa


任务

  • 任务2:文本分析与文本分词

    • 步骤1:使用jieba对中文进行分词;
    • 步骤2:使用negisa对日语进行分词;

Just Do It!

1.中文分词:jieba

支持4种模式

  • 精确模式:试图将句子最精确地切开,适合文本分析;(不加参数,默认是精确模式)
  • 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义(cut_all=True)
  • paddle模式:利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。(应该是百度提供的分词模型)(use_paddle=True)
  • 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词(jieba.cut_for_search)

示例代码:


seg_cut = jieba.cut('北京故宫圆明园颐和园,风景都很好看!',cut_all=True)#全模式
print('/'.join(seg_cut))seg_cut = jieba.cut('北京故宫圆明园颐和园,风景都很好看!',cut_all=False)#精确模式
print('/'.join(seg_cut))seg_list = jieba.cut("北京故宫圆明园颐和园,风景都很好看!") #默认是精确模式
print("/".join(seg_list)) seg_list = jieba.cut_for_search('北京故宫圆明园颐和园,风景都很好看!')#搜索引擎模式
print('/'.join(seg_list))seg_list = jieba.cut('北京故宫圆明园颐和园,风景都很好看!',use_paddle=True)#Paddle模式
print('/'.join(seg_list))

对应到比赛中,代码为

train_cn['words'] = train_cn['原始文本'].apply(lambda x:' '.join(i for i in jieba.lcut(x)))

2.日语分词:nagisa

GitHub - taishi-i/nagisa: A Japanese tokenizer based on recurrent neural networks

示例代码:

import nagisatext = 'Pythonで簡単に使えるツールです'
words = nagisa.tagging(text)
print(words)
#=> Python/名詞 で/助詞 簡単/形状詞 に/助動詞 使える/動詞 ツール/名詞 です/助動詞# Get a list of words
print(words.words)
#=> ['Python', 'で', '簡単', 'に', '使える', 'ツール', 'です']# Get a list of POS-tags
print(words.postags)
#=> ['名詞', '助詞', '形状詞', '助動詞', '動詞', '名詞', '助動詞']

对应到比赛中,代码为:

# 文本分词
train_jp['words'] = train_jp['原始文本'].apply(lambda x: ' '.join(nagisa.tagging(x).words))
train_eg['words'] = train_eg['原始文本'].apply(lambda x: x.lower())test_jp['words'] = test_jp['原始文本'].apply(lambda x: ' '.join(nagisa.tagging(x).words))
test_eg['words'] = test_eg['原始文本'].apply(lambda x: x.lower())

结果为:

比赛对英文的处理

其实比赛中英文不需要处理,因为英文单词本身就是以空格区分的,所以本身就相当于做了分词了。只需要将大写统一转换为小写就行了。

OK,Fine!

【Coggle 30 Days of ML】汽车领域多语种迁移学习挑战赛(2)相关推荐

  1. 汽车领域多语种迁移学习挑战赛-Coggle 30 Days of ML

    前言 依然是coggle的7月竞赛学习活动,本博客围绕着汽车领域多语种迁移学习挑战赛展开. 比赛地址:http://challenge.xfyun.cn/topic/info?type=car-mul ...

  2. NLP竞赛参与打卡记录:汽车领域多语种迁移学习挑战赛

    NLP竞赛参与打卡记录:汽车领域多语种迁移学习挑战赛 本博客为Coggle 30 Days of ML(22年7月)竞赛打卡活动记录页面,会记录本人的打卡内容.活动链接为:活动链接 任务1:比赛报名 ...

  3. 【练一下2】汽车领域多语种迁移学习挑战赛[2022.7.8]

    文章目录 任务1:报名比赛 步骤1:报名比赛http://challenge.xfyun.cn/topic/info?type=car-multilingual&ch=ds22-dw-zmt0 ...

  4. 竞赛:汽车领域多语种迁移学习挑战赛(科大讯飞)

    目录 一.赛事背景 二.赛事任务 三.评审规则 1.数据说明 2.评估指标 四.准备阶段 1.报名比赛 2.查看训练集和测试集字段类型 五.文本分析与文本分词 1.使用jieba对中文进行分词 2.使 ...

  5. 【Coggle 30 Days of ML】汽车领域多语种迁移学习挑战赛(4)

    目录 任务 Just Do It! 1.Bert模型入门 1.1前置知识 1.2导入预训练模型 1.3训练数据处理 1.4数据及读取及模型定义 2.Bert文本分类 2.1开始读取数据集 2.2加载模 ...

  6. 【Coggle 30 Days of ML】糖尿病遗传风险检测挑战赛(2)

    目录 任务 Just Do It! 1.特征工程 2.特征筛选 3.K折交叉验证​​​​​​​ 任务 任务4:特征工程(使用pandas完成) 步骤1:统计每个性别对应的[体重指数].[舒张压]平均值 ...

  7. 【Coggle 30 Days of ML】糖尿病遗传风险检测挑战赛(1)

    目录 任务 Just Do It! 1.导包 2.读取数据并进行分析 3.数据预处理 4.模型选择 5.预测 6.评估指标 7.得到提交文件 任务 任务1:报名比赛 步骤1:报名比赛2022 iFLY ...

  8. 糖尿病遗传风险检测挑战赛(Coggle 30 Days of ML)

    本次跟着Coggle 30 Days of ML学习算法竞赛,而不是基于现成baseline来操作,预计重新熟悉并学习 Pandas.Numpy 处理数据 Sklearn.LightGBM 模型使用 ...

  9. Coggle 30 Days of ML【打卡】广告-信息流跨域ctr预估

    Coggle 30 Days of ML[打卡]广告-信息流跨域ctr预估 任务介绍 赛题介绍 广告推荐主要基于用户对广告的历史曝光.点击等行为进行建模,如果只是使用广告域数据,用户行为数据稀疏,行为 ...

最新文章

  1. 8个可以提高数据科学工作效率、节省宝贵时间的Python库
  2. 第十二周项目一-实现复数类中的运算符重载(2)
  3. 2.7 json 模块
  4. Netstat命令(windows下)
  5. 常用的生物学数据库及网站介绍,你都了解了吗?
  6. matlab如何响两声,matlab发出声音
  7. 朴素贝叶斯算法_机器学习第三篇:详解朴素贝叶斯算法
  8. SAP Fiori Elements - fragment load roundtrip
  9. 基于机器视觉的散热器钎焊缺陷检测系统研发
  10. cesium 取消光晕
  11. 【资讯】国内 42 所一流大学综合排名出炉!清北之后谁是国内第三?
  12. c语言程序从源代码到二进制机器码,C语言源代码转变为可执行程序的过程
  13. 各种redhat版本下载
  14. vue子父组件之间的传值
  15. LSF集群基本概念介绍
  16. 推荐个电脑桌面便签软件工具:好用便签,简单、免费、无广告、电脑手机同步、支持团队共享,用来做桌面便签笔记、备忘录、待办日程任务清单很多。
  17. wpf初学者-wpf控件简单介绍
  18. 200行代码为大家解读这个Github冠军项目背后的定时器
  19. mobilefacenet caffe2WK
  20. 联发科天玑800适配鸿蒙系统,联发科天玑800U 5G芯片加持,Redmi Note9实际表现究竟如何?...

热门文章

  1. 搜狗输入法用户id非法,表情包无法搜到图片,显示异常.......
  2. linux源码在线阅读工具
  3. 使用dom4j来解析xml文件或xml字符串
  4. 【转】经典的劝酒令和挡酒词
  5. 洛谷 P2884 【[USACO07MAR]每月的费用Monthly Expense】
  6. 冬天洗衣不动手,这几款智慧洗衣机可以帮到你
  7. java ssm野生动物公益保护网站系统
  8. SwiftUI 人工智能教程之图像识别植物或花朵通过图片和相机
  9. 揭秘跨境电商亚马逊测评的培训骗局!千万不要上当受骗!
  10. GitHub 上受欢迎的 Android UI Library 整理(一)