尝试对三国演义中的人物进行词频统计,这只是初步统计,后续还应该继续优化。

import jieba

txt = open("threekingdoms.txt", "r", encoding='utf-8-sig').read()

#注意上面用utf-8或utf-8-sig(文件很大时可用)编码,相应的文本文件的编码方式也应该是utf-8,查询方式

#是用记事本打开,然后点击另存为,查看用的什么编码,一开始遇到错误是因为编码是ANSI

#还有就是可能因为后缀名没有显示,起的名字里加了.txt,所以即使在同一文件夹下,尝试

#打开文件会找不到,所以通过控制面板将隐藏后缀名的勾去掉

words=jieba.lcut(txt)

counts={}

for word in words:

if len(word)==1:

continue

else:

counts[word]=counts.get(word,0)+1

items=list(counts.items())

items.sort(key=lambda x:x[1],reverse=True)

for i in range(10):

word,count=items[i]

print("{0:<10}{1:>5}".format(word,count))
比较:
英文文本的词频统计:没用到jieba

首先要将文本进行噪音处理,即归一化,可以用一个函数(打开文件,小写,空格代替特殊符号)处理,最后形成干净的归一化文本。

然后调用该函数

split( )方法返回列表类型,并以空格隔开

建立词典并for...in...分析单词与出现次数的对应关系,用get方法进行计数:counts[word]=counts.get(word,0)意思是用当前的某一个单词作为键,如果词在里面则返回次数并加1,说明盖=该词又出现了;如果没在字典里面,则加在字典中,并赋当前值为0,并加1,说明在字典中新增了一个元素

字典转列表类型,并用sort方法(lambda函数作为第一个参数,第二个参数是reverse,表示按大到小还是小到大,True是大到小)进行排序

高频词循环打印:先赋值,设置打印格式(左对齐或右对齐,宽度)

jieba中文分词学习相关推荐

  1. jieba分词_Jieba.el – 在Emacs中使用jieba中文分词

    jieba.el 在Emacs中使用jieba中文分词 众所周知, Emacs并没有内置中文分词系统, 以至于 forward-word 和 backward-word 以及 kill-word 等以 ...

  2. Jieba中文分词下如何画词云图?

    配置:anaconda3 + Pycharm 文章目录 WordCloud 关于Jieba分词 Jieba中文分词 +绘制词云图 案例 WordCloud 英文文本 导入第三方模块 from word ...

  3. jieba —— 中文分词工具 (一)

    jieba 中文分词工具包 (一) 01 简介 "结巴" 中文分词:做最好的 Python 中文分词组件: "Jieba" (Chinese for " ...

  4. 文本分析--jieba中文分词

    分词技术可以分为英文分词和中文分词:       对于英文分词而言,由于英文单词之间以空格来分隔,所以在进行英文分词的过程中,只需要针对空格进行划分就可以了.       对于中文分词而言,中文单词之 ...

  5. 简明Jieba中文分词教程(分词、关键词提取、词性标注、计算位置)

    目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 T ...

  6. jieba中文分词组件

    目录 jieba简介 组件特点 安装方法 算法 使用jieba 分词 添加自定义词典 载入词典 调整词典 关键词提取 基于 TF-IDF 算法的关键词抽取 基于 TextRank 算法的关键词抽取 词 ...

  7. Lucene bm25 结合 jieba中文分词搜索

    ​​​​​2021.10.20:​​增加依赖包,防止版本问题导致代码不可用 <dependencies><!--核心包--><dependency><grou ...

  8. 【pyspark】jieba 中文分词

    :jieba分词包 https://github.com/fxsjy/jieba :python安装 pip install jieba :测试 import jieba seg_list = jie ...

  9. 中文自然语言处理——jieba中文分词器

    jieba分词器 1.引入jieba库和语料 import jieba content = '深度学习是机器学习的一个子集,传统机器学习中,人们需要对专业问题理解非常透彻,才能手工设计特征,然后把特征 ...

最新文章

  1. 注意!Linux glibc再曝漏洞,可导致Linux软件劫持
  2. 客户端动态调用WCF服务中的方法
  3. python中scale的用法_Python Decimal scaleb()用法及代码示例
  4. ASP.net远程调试笔记
  5. 抽象工厂产品等级结构与产品族
  6. jeecg中ajax传值的前端js和后台代码
  7. 一、第一个注解的 SpringMVC 程序
  8. Prime算法生成迷宫
  9. Oracle ERP权限管理
  10. 数据结构专题二:2.6链表删除结点
  11. 网络管理与维护作业5
  12. jax-ws使用教程_JAX-WS教程
  13. 便宜php扩展,php扩展【货币问答】- php扩展所有答案 - 联合货币
  14. IDDD 实现领域驱动设计-上下文映射图及其相关概念
  15. 面试、笔试中常用的SQL语句(数据库知识必杀)一共50个!!!
  16. 因子分析以及SPSS实现
  17. 模板消息php40008,企业微信发送模板消息 40008 Warning: wrong json format. ?
  18. IT公民:293个公司人压力和心理调查
  19. 计算机屏幕显示电缆借口,电脑打不开,显示电缆线没有连接是什么意思?
  20. 福大软工 · 真 · 最终作业

热门文章

  1. 人工智能培训老师讲师叶梓:计算机视觉领域的自监督学习模型——MAE-3
  2. 【多多情报通】拼多多平台上商家需要遵守的规则有哪些呢?
  3. mask rcnn涉及点__AP;mAP
  4. 05_Support Vector Machines_03拉格朗日Lagrangian function先最大化maximize后最小化minimize_QP solver(soft-margin)
  5. 逛飙极兔牵手百世,快递行业三分江湖
  6. 三菱e68系统程序传输_三菱传输软件 三菱m70网络传输 设置
  7. 2.4G和5GWiFi的区别
  8. 面向呼叫控制和无线网的JAIN API
  9. 用过1000个微信小程序,挑了8个好用又好玩的!建议收藏
  10. 第七课 Python Web企业门户网站-部署