# 官方例程

# encoding=utf-8

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)

print("Full Mode: " + "/ ".join(seg_list)) # 全模式

输出:===============================

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)

print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

输出:  ======================

【精确模式】: 我/ 来到/ 北京/ 清华大学

seg_list = jieba.cut("他来到了网易杭研大厦")

# 默认是精确模式

print(", ".join(seg_list))

输出:================

【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式

print(", ".join(seg_list))

输出:=================================

【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

附上个人案例:

词云wordcloud+jieba+matplotlib做出漂亮的词云效果:

#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:wujf@file: word.py@time: 2018/09/14 10:05必须要安装 matplotlib"""import sys# default_encoding = 'utf-8'# if sys.getdefaultencoding() != default_encoding:#     reload(sys)#     sys.setdefaultencoding(default_encoding)import jiebafrom wordcloud import WordCloud

import matplotlib.pyplot as plt

with open(r"C:\\Users\\lenovo\\PycharmProjects\\Primary\\lover.txt",'r') as f:    text = f.read()

str  = " ".join(jieba.cut(text))

print type(str)

font = r"C:\\Windows\\Fonts\\微软雅黑\\msyhl.ttc"     #这里一定要些win10电脑里面的中文字体,否则遇到中文字体分不出来s = WordCloud(font_path=font,              background_color='black',              width=1200,              height=600              ).generate(str)s.to_file("cloud.png")plt.imshow(s)plt.axis("off")plt.show()

效果图:

转载于:https://www.cnblogs.com/wujf-myblog/p/9660517.html

python的jieba分词相关推荐

  1. 自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词

    注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书<分布式机器学习实战>(人工智能科学与技术丛书)[陈敬雷编著][清华大学出版社] 文章目录 自然语言处理系列十七 分词工 ...

  2. python怎么安装jieba库-python环境jieba分词的安装

    我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明 ======= 代码对 Python 2/3 均兼容 * 全自动安装:`e ...

  3. 12星座都是什么性格?(python爬虫+jieba分词+词云)

    12星座都是什么性格,大数据告诉你! 下面是利用python爬取12星座性格相关的微博,产生的12星座性格特征词云!白羊座为例,其他的在最后. 上代码(以白羊座为例): 1.微博数据爬取(需要sele ...

  4. python环境jieba分词的安装

    我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明 ======= 代码对 Python 2/3 均兼容 * 全自动安装:`e ...

  5. 基于python的jieba分词

    一.jieba分词基本用法 1.一般都采用精确分词模式,直接jieba.cut(str1), 2.识别新词默认开启. 3.词性标注jieba.posseg,需要才用 全分词 精确分词 paddle模式 ...

  6. 手把手教会你使用Python进行jieba分词

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 疏影横斜水清浅,暗香浮动月黄昏. ...

  7. python中jieba分词,并输出词云(基础版)

    环境与文件准备 环境anaconda+pycharm,已经安装结巴库,wordcloud库,将0001-text.txt,stop_words.txt,dict.txt与新建py文件放到同一文件夹下. ...

  8. python中文分词之jieba分词的使用

    文章目录 1.特点 2.安装说明 安装示例 下载: 安装: 测试: 3.算法 4.主要功能 (1)分词 (2)添加自定义词典 载入词典 调整词典 (3)关键词提取 一.基于 TF-IDF 算法的关键词 ...

  9. python用jieba进行分词并可视化

    python用jieba进行分词并可视化 import jieba import pandas as pd import matplotlib.pyplot as plt txt = open(&qu ...

最新文章

  1. 很多人说单片机很简单,有些本专业学生为什么学起来这么吃力?
  2. 实现一个spring webservice服务端二:创建一个可以访问的webservice
  3. 团队任务3:每日立会(2018-10-18)
  4. linux服务器secureCRT RSA登录配置
  5. 来兄弟连学习的经历和感受
  6. 聊聊区块链,虽然我不挖矿!
  7. 最详细的ECLIPSE Android SDK下载安装及配置教程
  8. 擦地机器人修理_第一次修扫地机器人
  9. Windows命令之ftp命令
  10. 前端预览pdf文件流
  11. LSH(Locality Sensitive Hashing)原理与实现
  12. zmud之汉字转换为数字
  13. 人体红外传感器HC-SR501特点及使用介绍
  14. winform直接控制云台_比 2 代便宜的灵眸手机云台 3,竟然还多了 15 条新亮点!...
  15. 库尔巴克·莱布勒------KL散度
  16. 电脑怎么打开隐藏文件夹?1分钟搞定!
  17. item_get - 获得suning商品详情
  18. 数字图像处理Matlab
  19. 管理系统联系人之补充
  20. 老男孩MysqlDBA专家班

热门文章

  1. python re正则_正则表达式+Python re模块详解
  2. 机器学习 - [源码实现决策树小专题]决策树如何分裂以拓展节点(以及在不允许调用sklearn等库的源代码实现)
  3. mysql安装时1045错误_MySql 安装时的1045错误
  4. Java /Jsp 执行操作系统命令 windows/Linux
  5. Confluence 6 Oracle 驱动输入你的数据库细节
  6. struts2 action 返回类型分析
  7. Python 学习笔记(五)杂项
  8. fullcalendar小结
  9. Abstract class 与Interface 抽象类和接口
  10. PowerDesigner 11 一些小技巧