jieba中文分词学习
尝试对三国演义中的人物进行词频统计,这只是初步统计,后续还应该继续优化。
import jieba
txt = open("threekingdoms.txt", "r", encoding='utf-8-sig').read()
#注意上面用utf-8或utf-8-sig(文件很大时可用)编码,相应的文本文件的编码方式也应该是utf-8,查询方式
#是用记事本打开,然后点击另存为,查看用的什么编码,一开始遇到错误是因为编码是ANSI
#还有就是可能因为后缀名没有显示,起的名字里加了.txt,所以即使在同一文件夹下,尝试
#打开文件会找不到,所以通过控制面板将隐藏后缀名的勾去掉
words=jieba.lcut(txt)
counts={}
for word in words:
if len(word)==1:
continue
else:
counts[word]=counts.get(word,0)+1
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(10):
word,count=items[i]
首先要将文本进行噪音处理,即归一化,可以用一个函数(打开文件,小写,空格代替特殊符号)处理,最后形成干净的归一化文本。
然后调用该函数
split( )方法返回列表类型,并以空格隔开
建立词典并for...in...分析单词与出现次数的对应关系,用get方法进行计数:counts[word]=counts.get(word,0)意思是用当前的某一个单词作为键,如果词在里面则返回次数并加1,说明盖=该词又出现了;如果没在字典里面,则加在字典中,并赋当前值为0,并加1,说明在字典中新增了一个元素
字典转列表类型,并用sort方法(lambda函数作为第一个参数,第二个参数是reverse,表示按大到小还是小到大,True是大到小)进行排序
高频词循环打印:先赋值,设置打印格式(左对齐或右对齐,宽度)
jieba中文分词学习相关推荐
- jieba分词_Jieba.el – 在Emacs中使用jieba中文分词
jieba.el 在Emacs中使用jieba中文分词 众所周知, Emacs并没有内置中文分词系统, 以至于 forward-word 和 backward-word 以及 kill-word 等以 ...
- Jieba中文分词下如何画词云图?
配置:anaconda3 + Pycharm 文章目录 WordCloud 关于Jieba分词 Jieba中文分词 +绘制词云图 案例 WordCloud 英文文本 导入第三方模块 from word ...
- jieba —— 中文分词工具 (一)
jieba 中文分词工具包 (一) 01 简介 "结巴" 中文分词:做最好的 Python 中文分词组件: "Jieba" (Chinese for " ...
- 文本分析--jieba中文分词
分词技术可以分为英文分词和中文分词: 对于英文分词而言,由于英文单词之间以空格来分隔,所以在进行英文分词的过程中,只需要针对空格进行划分就可以了. 对于中文分词而言,中文单词之 ...
- 简明Jieba中文分词教程(分词、关键词提取、词性标注、计算位置)
目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 T ...
- jieba中文分词组件
目录 jieba简介 组件特点 安装方法 算法 使用jieba 分词 添加自定义词典 载入词典 调整词典 关键词提取 基于 TF-IDF 算法的关键词抽取 基于 TextRank 算法的关键词抽取 词 ...
- Lucene bm25 结合 jieba中文分词搜索
2021.10.20:增加依赖包,防止版本问题导致代码不可用 <dependencies><!--核心包--><dependency><grou ...
- 【pyspark】jieba 中文分词
:jieba分词包 https://github.com/fxsjy/jieba :python安装 pip install jieba :测试 import jieba seg_list = jie ...
- 中文自然语言处理——jieba中文分词器
jieba分词器 1.引入jieba库和语料 import jieba content = '深度学习是机器学习的一个子集,传统机器学习中,人们需要对专业问题理解非常透彻,才能手工设计特征,然后把特征 ...
最新文章
- 注意!Linux glibc再曝漏洞,可导致Linux软件劫持
- 客户端动态调用WCF服务中的方法
- python中scale的用法_Python Decimal scaleb()用法及代码示例
- ASP.net远程调试笔记
- 抽象工厂产品等级结构与产品族
- jeecg中ajax传值的前端js和后台代码
- 一、第一个注解的 SpringMVC 程序
- Prime算法生成迷宫
- Oracle ERP权限管理
- 数据结构专题二:2.6链表删除结点
- 网络管理与维护作业5
- jax-ws使用教程_JAX-WS教程
- 便宜php扩展,php扩展【货币问答】- php扩展所有答案 - 联合货币
- IDDD 实现领域驱动设计-上下文映射图及其相关概念
- 面试、笔试中常用的SQL语句(数据库知识必杀)一共50个!!!
- 因子分析以及SPSS实现
- 模板消息php40008,企业微信发送模板消息 40008 Warning: wrong json format. ?
- IT公民:293个公司人压力和心理调查
- 计算机屏幕显示电缆借口,电脑打不开,显示电缆线没有连接是什么意思?
- 福大软工 · 真 · 最终作业
热门文章
- 人工智能培训老师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-3
- 【多多情报通】拼多多平台上商家需要遵守的规则有哪些呢?
- mask rcnn涉及点__AP;mAP
- 05_Support Vector Machines_03拉格朗日Lagrangian function先最大化maximize后最小化minimize_QP solver(soft-margin)
- 逛飙极兔牵手百世,快递行业三分江湖
- 三菱e68系统程序传输_三菱传输软件 三菱m70网络传输 设置
- 2.4G和5GWiFi的区别
- 面向呼叫控制和无线网的JAIN API
- 用过1000个微信小程序,挑了8个好用又好玩的!建议收藏
- 第七课 Python Web企业门户网站-部署