jieba中文分词学习

尝试对三国演义中的人物进行词频统计，这只是初步统计，后续还应该继续优化。

import jieba

txt = open("threekingdoms.txt", "r", encoding='utf-8-sig').read()

#注意上面用utf-8或utf-8-sig（文件很大时可用）编码，相应的文本文件的编码方式也应该是utf-8，查询方式

#是用记事本打开，然后点击另存为，查看用的什么编码，一开始遇到错误是因为编码是ANSI

#还有就是可能因为后缀名没有显示，起的名字里加了.txt，所以即使在同一文件夹下，尝试

#打开文件会找不到，所以通过控制面板将隐藏后缀名的勾去掉

words=jieba.lcut(txt)

counts={}

for word in words:

if len(word)==1:

continue

else:

counts[word]=counts.get(word,0)+1

items=list(counts.items())

items.sort(key=lambda x:x[1],reverse=True)

for i in range(10):

word,count=items[i]

print("{0:<10}{1:>5}".format(word,count))

比较：

英文文本的词频统计:没用到jieba

首先要将文本进行噪音处理，即归一化，可以用一个函数（打开文件，小写，空格代替特殊符号）处理，最后形成干净的归一化文本。

然后调用该函数

split( )方法返回列表类型，并以空格隔开

建立词典并for...in...分析单词与出现次数的对应关系，用get方法进行计数：counts[word]=counts.get(word,0)意思是用当前的某一个单词作为键，如果词在里面则返回次数并加1，说明盖=该词又出现了；如果没在字典里面，则加在字典中，并赋当前值为0，并加1，说明在字典中新增了一个元素

字典转列表类型，并用sort方法（lambda函数作为第一个参数，第二个参数是reverse，表示按大到小还是小到大，True是大到小）进行排序

高频词循环打印：先赋值，设置打印格式（左对齐或右对齐，宽度）

jieba中文分词学习相关推荐

jieba分词_Jieba.el – 在Emacs中使用jieba中文分词
jieba.el 在Emacs中使用jieba中文分词众所周知, Emacs并没有内置中文分词系统, 以至于 forward-word 和 backward-word 以及 kill-word 等以 ...
Jieba中文分词下如何画词云图？
配置:anaconda3 + Pycharm 文章目录 WordCloud 关于Jieba分词 Jieba中文分词 +绘制词云图案例 WordCloud 英文文本导入第三方模块 from word ...
jieba —— 中文分词工具（一）
jieba 中文分词工具包 (一) 01 简介 "结巴" 中文分词:做最好的 Python 中文分词组件: "Jieba" (Chinese for " ...
文本分析--jieba中文分词
分词技术可以分为英文分词和中文分词: 对于英文分词而言,由于英文单词之间以空格来分隔,所以在进行英文分词的过程中,只需要针对空格进行划分就可以了. 对于中文分词而言,中文单词之 ...
简明Jieba中文分词教程（分词、关键词提取、词性标注、计算位置）
目录 0 引言 1 分词 1.1 全模式和精确模式 1.2 搜索引擎模式 1.3 HMM 模型 2 繁体字分词 3 添加自定义词典 3.1 载入词典 3.2 调整词典 4 关键词提取 4.1 基于 T ...
jieba中文分词组件
目录 jieba简介组件特点安装方法算法使用jieba 分词添加自定义词典载入词典调整词典关键词提取基于 TF-IDF 算法的关键词抽取基于 TextRank 算法的关键词抽取词 ...
Lucene bm25 结合 jieba中文分词搜索
2021.10.20:增加依赖包,防止版本问题导致代码不可用 <dependencies><dependency><grou ...
【pyspark】jieba 中文分词
:jieba分词包 https://github.com/fxsjy/jieba :python安装 pip install jieba :测试 import jieba seg_list = jie ...
中文自然语言处理——jieba中文分词器
jieba分词器 1.引入jieba库和语料 import jieba content = '深度学习是机器学习的一个子集,传统机器学习中,人们需要对专业问题理解非常透彻,才能手工设计特征,然后把特征 ...

jieba中文分词学习

jieba中文分词学习相关推荐

最新文章

热门文章