#Python知识分享#

上次我们学习了机器学习以及语料分词的实例今天我们重点聊聊处理语料。我们就先说分词,我们就用开始结巴分词。(一)分词模式

第一种:全模式分词

# -- coding: utf-8 --import jiebalist = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(list)) # 全模式

输出结果:

Full Mode: 我/ 要/ 去/ 某某/ 某大学/ 大学/ 学上/ 上学Loading model cost 1.547 seconds.Prefix dict has been built succesfully.

第二种:精准模式,也是默认情况下的模式

# -- coding: utf-8 --import jiebalist = jieba.cut("我要去某某大学上学", cut_all=False)print("Precision Mode: " + "/ ".join(list))

输出结果:

Precision Mode: 我要/ 去/ 某某/ 大学/ 上学第三种:搜索引擎模式

# -- coding: utf-8 --

import jiebalist = jieba.cut_for_search("我要去某某大学上学")print("Search Engine Model: " + "/ ".join(list))

输出结果:

Search Engine Model: 我要/ 去/ 某某/ 大学/ 上学我们可以看出来:全模式:就是尽可能多把所有可以组成词语的都分出来了,这样就会出现很多无意义词汇

精准模式:就算是比较精准的把词汇分出来

搜索引擎模式:实在精准模式的基础上再次吧长词拆分

根据不同的场景大家可以采用不同的分词方式

(二)自定义分词

那么对于有些自定义的词汇分析不出来怎么办呢,结巴分词给出了自定义词汇的功能,我们来看看具体的实例:

# -- coding: utf-8 --import jiebalist = jieba.cut("我要去某某大学上学")print("Search Engine Model: " + "/ ".join(list))#下面是自定义分词

jieba.load_userdict("User-defined.txt")list = jieba.cut("我要去某某大学上学")print("User-defined participle: " + "/".join(list))其中User-defined.txt的内容为1大学上学2要去某某

我们看下输出结果:

Search Engine Model: 我要/ 去/ 某某/ 大学/ 上学User-defined participle: 我/要去某某/大学上学

(三)动态添加自定义分词

# -- coding: utf-8 --import jiebalist = jieba.cut("我要去某某大学上学")print("Search Engine Model: " + "/ ".join(list))jieba.load_userdict("User-defined.txt")list = jieba.cut("我要去某某大学上学")print("User-defined participle: " + "/".join(list))print("/".join(jieba.cut("我要去某某大学上学你们觉得好吗", HMM = False)))# jieba.add_word("你们觉得")jieba.add_word("好吗")#动态添加新词汇# jieba.suggest_freq("好吗", tune=True)print("/".join(jieba.cut("我要去某某大学上学你们觉得好吗", HMM = False)))jieba.del_word("某某")jieba.suggest_freq(("你","们"), tune = True) #讲你和们拆分出来print("/".join(jieba.cut("我要去某某大学上学你们觉得好吗", HMM = False)))

输出结果:

Search Engine Model: 我要/ 去/ 某某/ 大学/ 上学User-defined participle: 我要/去/某某/大学上学我/要/去/某某/大学上学/你们/觉得/好/吗我/要/去/某某/大学上学/你们/觉得/好吗我/要/去/某某/大学上学/你/们/觉得/好吗

(四)输出词性

# -- coding: utf-8 --import jieba.posseg as psegwords = pseg.cut("我要去某某大学上学。")for wd in words:print("%s %s" %(wd.word, wd.flag))

输出结果:

我 r要 v去 v某某 r大学 n上学 n。 x

我们可以看到每个分出来的词汇都打印出来了词性今天就先讲到这里。

最后把自己之前照的美景和大家分享下希望大家能有个好心情

python分词_Python机器学习-教你分词相关推荐

  1. 机器学习 python 库_Python机器学习库

    机器学习 python 库 什么是机器学习? (What is Machine Learning?) As the web is immensely growing with each day, an ...

  2. python影评_python爬虫及结巴分词《攀登者》影评分析

    <攀登者>影评爬取及分析 0.项目结构 其中simkai.ttf为字体文件,Windows查看系统自带的字体 C:\Windows\Fonts 一.爬取豆瓣影评数据 # -*- codin ...

  3. 层次聚类python实现_Python机器学习——Agglomerative层次聚类

    层次聚类(hierarchical clustering)可在不同层次上对数据集进行划分,形成树状的聚类结构.AggregativeClustering是一种常用的层次聚类算法. 其原理是:最初将每个 ...

  4. python恢复_python机器学习入门恢复

    3步快速找回,让数据恢复变得简单 版权所有 1990-2020 B计划信息技术有限公司 python机器学习入门 python机器学习入门 Windows 10,Windows 7,Windows 8 ...

  5. 派森python教程_Python系列教程一Python入门(一)

    前言 各位看博客的园友们,大家好,我就是那个风流倜傥的KK,还记得我那篇2019年的年中总结博客吗?我想有许多看博客的园友是没有读过我那篇文章的,KK很生气,后果很严重(开个玩笑了,怎么可能).给大家 ...

  6. python定价_Python|机器学习与量化交易、定价高级训练营陆家嘴学

    Python|机器学习与量化交易.定价高级训练营陆家嘴学堂百度云下载 我买了这个课程,在此分享! 获取课程,请加幑信: 1403905263 (复制幑信号到幑信添加!) 或者扫下面码 <韩非子& ...

  7. 支持向量机python实例_Python机器学习SVM简单应用实例 | kTWO-个人博客

    1.前言 在上一篇理论性的文章中我们说过了,SVM是分线性可分和线性不可分两种情况的,线性可分的比较容易理解,比较容易一些,线性不可分的就稍微复杂一点了.我们测试就分别用线性可分和线性不可分两种情况分 ...

  8. 鸢尾花完整的python代码_python机器学习实现鸢尾花的分类

    鸢尾花(学名:Iris tectorum Maxim)属百合目.鸢尾科,可供观赏,花香气淡雅,可以调制香水,其根状茎可作中药,全年可采,具有消炎作用. 鸢尾花主要有三个品种,setosa,versic ...

  9. pca降维python实例_Python机器学习笔记:使用scikit-learn工具进行PCA降维

    之前总结过关于PCA的知识:深入学习主成分分析(PCA)算法原理.这里打算再写一篇笔记,总结一下如何使用scikit-learn工具来进行PCA降维. 在数据处理中,经常会遇到特征维度比样本数量多得多 ...

最新文章

  1. 7.1.3 TimePicker结合案例详解
  2. Java静态变量与静态方法与成员变量成员方法的区别
  3. JQuery官方学习资料(译):$( document ).ready()
  4. 【控制】二阶 UGV 的无穷时间状态输入性能最优解算
  5. .net core dll 套壳加密_BCVP开发者说第4期:Remember.Core
  6. SAP成都研究院大卫哥:SAP C4C中国本地化之微信小程序集成
  7. row_number() over()排序功能说明
  8. weblogic-修改控制台登录密码
  9. 计算机数字媒体学什么以后,数字媒体设计是学什么的?以后的发展方向是什么?...
  10. 计算机二级vb上机操作题库,2017年3月计算机二级VB上机操作题库及答案
  11. linux卸载驱动命令,linux卸载驱动时 Resource temporarily unavailable
  12. js播放Amr音频_Mp3转Amr
  13. 逃出你的肖申克(五):看不见的牢笼(上)
  14. 自己怎么制作地图,如何绘制电子版地图?
  15. 东南大学自动化934面试资料1
  16. String字符串类及有关内存分析
  17. eToken 身份认证
  18. DSP C6657 image_processing_evmc6657l网页加载图片示例
  19. 安卓和iOS的兼容性问题: 键盘弹起时,固定在底部的按钮是否被弹到键盘上方
  20. gorm使用Joins方法查询关联表数据的示例

热门文章

  1. 微信小程序 界面跳转之后出现空白
  2. android 应用内切换语言
  3. c语言fputc用法,fputc 和fgetc 函数
  4. 数据结构课程设计——图书信息管理系统设计
  5. java盒子_JAVA 盒子
  6. 阿里-应届生面试求职基础题以及答案(2)
  7. C 标准库 atof 函数的实现
  8. EditText 禁止输入表情包的正则表达式
  9. 开源一个最近做的基于ActiveX的浏览器,求祝福!
  10. 【JavaScript练习】用户输入任意两个数字的任意算数运算(简单的计算器小功能)并弹出运算后的结果。