一.jieba分词基本用法

1.一般都采用精确分词模式,直接jieba.cut(str1),

2.识别新词默认开启。

3.词性标注jieba.posseg,需要才用

  • 全分词
  • 精确分词
  • paddle模式
  • 搜索引擎模式分词

二.精确度调整

1.字典调整

(1)使用自定义词典:load_userdict()函数

#1.使用用户自定义词典
jieba.load_userdict('hello.txt')
seg_list=jieba.cut(str1)
print('使用自定义词典分词结果:','/'.join(seg_list))

(2) 动态修改词典

#2.动态修改词典 add_word() del_word()
jieba.load_userdict('hello.txt')
jieba.add_word('我来到了')
jieba.del_word('发现这儿')
seg_list=jieba.cut(str1)
print('动态修改词典分词结果:','/'.join(seg_list))

2.调节词频

#调节词频 suggest_freq()函数
jieba.suggest_freq(('真','不错'),True)
jieba.suggest_freq('我来到了',True)
seg_list=jieba.cut(str1)
print('调节词频结果:','/'.join(seg_list))

3.停用词过滤

with open('cn_stopwords.txt','r+',encoding='utf-8')as fp:stopwords=fp.read().split('\n')
word_list=[]
text='商务部4月23号发布的数据显示,一季度,全国农产品网络零售额达936.8亿元,增长31.0%;电商直播超过400万场。电商给农民带来了新的机遇。'
seg_list=jieba.cut(text)
for seg in seg_list:if seg not in stopwords:word_list.append(seg)  #list append方法
print(word_list)
print('启用停用词过滤时的分词结果:\n','/'.join(word_list))

四.关键词提取

TF-IDF和TextRank

# 1.基于TF-IDF算法的关键词提取 extract_tags()
from jieba import analyse
keywords=analyse.extract_tags(str1,topK=2,withWeight=True,allowPOS=('n','v'))
print(keywords)#2.基于TextRank 算法的关键词提取:textrank()函数
#textrank()函数能基于TextRank算法提取关键字
keywords=analyse.textrank(str1,topK=2,withWeight=True,allowPOS=('n','v'))
print(keywords)

词语概率统计

五.词频统计

text='蒸馍馍锅锅蒸馍馍,馍馍蒸了一锅锅,馍馍隔上桌桌,桌桌上面有馍馍。'
with open('cn_stopwords.txt','r+',encoding='utf-8')as fp:stopwords=fp.read().split('\n')word_list={}
jieba.suggest_freq(('桌桌'),True)seg_list=jieba.cut(text)for seg in seg_list:if seg not in stopwords:if seg in word_list.keys():word_list[seg]+=1else:word_list[seg]=1
print(word_list)

基于python的jieba分词相关推荐

  1. 基于python中jieba包的中文分词中详细使用(一)

    文章目录 基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...

  2. 基于python中jieba包的中文分词中详细使用(二)

    文章目录 基于python中jieba包的中文分词中详细使用(二) 01.前言 02.关键词提取 02.01基于TF-IDF算法的关键词提取 02.02词性标注 02.03并行分词 02.04Toke ...

  3. 基于python中jieba包的中文分词中详细使用

    基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...

  4. 基于Python的中英文分词基础:正则表达式和jieba分词器

    基于Python的中英文分词基础:正则表达式和jieba分词器 前言介绍 英文字符串处理 Python中的str 正则表达式 Python中的正则表达式模块 re 小练习 字符串中出现频次最多的字母 ...

  5. NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...

  6. 自然语言处理系列十七》中文分词》分词工具实战》Python的Jieba分词

    注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书<分布式机器学习实战>(人工智能科学与技术丛书)[陈敬雷编著][清华大学出版社] 文章目录 自然语言处理系列十七 分词工 ...

  7. NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之TEA:基于python编程(jieba库)实现中文文本情感分 ...

  8. ​​​​​​​NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)

    NLP之TEA:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分) 目录 输出结果 设计思路 相关资料 1.关于代码 2.关于数据集 关于留言 1.留言内容的注意事项 2.如 ...

  9. python怎么安装jieba库-python环境jieba分词的安装

    我的python环境是Anaconda3安装的,由于项目需要用到分词,使用jieba分词库,在此总结一下安装方法. 安装说明 ======= 代码对 Python 2/3 均兼容 * 全自动安装:`e ...

最新文章

  1. 文巾解题 617. 合并二叉树
  2. Java集合类ArrayList循环中删除特定元素
  3. 财务管理的革新带动财务软件的变革
  4. 串口服务器接入232显示乱码,串口服务器出现乱码时如何处理,解决方案
  5. 解决Linux操作系统下AES解密失败的问题
  6. 小汤学编程之JAVA基础day14——xml和反射
  7. C# —— IEnumerator和foreach
  8. ASP.NET自定义错误页面,分离配置信息,多环境发布
  9. Mac电脑优化工具箱MacCleaner PRO
  10. ado控件连接mysql_VB利用ADO控件连接access数据库
  11. 【Unity3D】VideoPlayer组件
  12. 以太坊的区块和存储(二):区块体之叔区块
  13. python游戏制作rpg_python实现的简单RPG游戏流程实例
  14. Tomcat7 配置Https双向证书认证
  15. BackTrack5 学习笔记5 扫描 Nmap
  16. 数据分析02-线性回归
  17. 如何配置Thymeleaf教程,及Thymeleaf的简单使用教程【一篇足够入门】
  18. 这是你们要的临时接收短信的虚拟手机号
  19. 洛谷P2404 自然数的拆分问题
  20. 电商微营销茶会第2期 | “微信营销、淘宝成交”玩法解析

热门文章

  1. 互联网50年:从信息高速公路到超级智能的进化
  2. layui的确认弹出层的玩法
  3. 中继协作传输的SWIPT——知识扫盲
  4. linux设置网口ip地址,linux网口设置ip地址
  5. 给软件添加注册码【笔记】
  6. python download
  7. Linux多人聊天室之前篇
  8. 将网页全屏显示的三种方法
  9. 常用键盘快捷键 键盘快捷键大全
  10. 按键脚本c语言,按键精灵脚本(示例代码)