jieba分词 是一款开源的中文分词包,同时它还带有分析模块,可以用TF-IDF等算法进行关键词分析

jieba

下面的小程序的基本思路是:

通过jieba从 保存好的txt文本中提取关键词,根据关键词的权重等决定关键词的文字大小,用matplotlib将它们呈现出来

#coding:utf-8

import os

import tkFileDialog #文件对话框模块

import jieba #jieba分词模块

import jieba.analyse #jieba分词分析模块

import codecs #中文编码转换模块

import matplotlib.pyplot as plt

from pylab import *

mpl.rcParams['font.sans-serif'] = ['simhei'] # 指定默认字体

mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题

default_dir = r"D:/py/" # 设置默认打开目录

fname = tkFileDialog.askopenfilename(title=u"选择文件",

initialdir=(os.path.expanduser(default_dir))) #选择供分析用的文本文件

fig=plt.figure()

fig.suptitle(u'关键词语TF-IDF分析',fontsize=14,fontweight='bold')

ax=fig.add_subplot(111)

ax.set_xlim(0,10)

ax.set_ylim(0,10)

fig.subplots_adjust(top=0.85)

with codecs.open(fname) as fr:

s=fr.read()

s_out=jieba.analyse.extract_tags(s, withWeight=True) #用jieba提取关键词

max_weight=max(list(map(lambda y: y[1],s_out)))

f_scale=int(1/max_weight)

for x, w in s_out:

print('%s %s' %(x,w))

locate=np.random.rand(2)

size=int(f_scale64w)

col=int(8w)+1

ax.text(locate[0]10,locate[1]*10,x,

fontsize=size,fontdict=None,color='blue') #pad表示与字的边距

plt.show()

从百度百科上取一段文字做测试:

蒙古族 编辑

蒙古族(蒙古语:ᠮᠣᠩᠭᠣᠯᠦᠨᠳᠦᠰᠦᠲᠡᠨ,西里尔字母:Монгол үндэстэн),是主要分布于东亚地区的一个传统游牧民族,是中国的少数民族之一,同时也是蒙古国的主体民族。此外,蒙古族在俄罗斯等亚欧国家也有分布,鄂温克族和土族也有时被认为是蒙古族的分支。[1]

蒙古族始源于古代望建河(今额尔古纳河)东岸一带。13世纪初,以成吉思汗为首的蒙古部统一了蒙古地区诸部,逐渐形成了一个新的民族共同体。

蒙古族人民世居草原,以畜牧为生计。过着“逐水草而居”的游牧生活,尽管这种生存方式在现代社会被弱化,但仍然被视作蒙古族的标志。

蒙古族在科学文化事业上比较发达,而且音乐、舞蹈也在艺术上居于相对显赫的地位[2] 。

《蒙古秘史》、《蒙古黄金史》、《蒙古源流》被称为蒙古族的三大历史巨著,其中《蒙古秘史》被联合国教科文组织确定为世界著名文化遗产。英雄史诗《江格尔》是中国的三大史诗之一。[3]

中文名 蒙古族 外文名 Mongols 人 口 约1000万 人口分布 中国,蒙古国,俄罗斯等 语 言蒙古语 文 字回鹘式蒙古文,西里尔蒙古文 信 仰萨满教,藏传佛教,回教 别 称 蒙古人,草原骄子,马背上的民族 方 言 内蒙古,卫拉特,巴尔虎布里亚特

目录

1 名称

2 历史

▪ 原始社会时期

▪ 民族的统一与对外征伐

▪ 元朝灭亡后的蒙古诸部

▪ 蒙古国的独立与内蒙古自治区的建立

3 人口

4 政治

原文比较长,就不全部贴上了。

关键词分析结果:

蒙古 0.169165636577

蒙古族 0.126360191488

蒙古人 0.055626259173

成吉思汗 0.0423217004291

民族 0.033926093091

四胡 0.0298077928858

....

分析之后的可视化结果:

image.png

python分词训练_python练习17:用jieba分词做关键词提取,用matplotlib做可视化相关推荐

  1. python 英文关键词提取_python 利用jieba.analyse进行 关键词提取

    1.简单应用 代码如下: #!/usr/bin/env python # -*- coding: utf-8 -*- # @File : jieba.analyse.py # @Author: 赵路仓 ...

  2. 利用jieba.analyse进行 关键词 提取

    利用jieba.analyse进行 关键词 提取 import jieba.analysetext='2020年5月11日至17日,全市共接报电信诈骗警情80宗.' Key=jieba.analyse ...

  3. python模型训练_python模型训练与预测练习

    python模型训练与预测练习 发布时间:2018-03-09 17:49, 浏览次数:368 , 标签: python 我是照着YouTube上的机器学习视频做的,视频里讲的比较简洁,下来自己做遇到 ...

  4. 日语python怎么说_python+Mecab,一次性学会日语分词

    某天在磕N1听力材料的时候,突然想到:"如果把听力里的高频词都背熟,那我的日语听力岂不是畅通无阻?"(我可真是个小机灵鬼) 实现思路就是"分词+统计",先写一个 ...

  5. python神经网络训练_Python深度学习训练神经网络

    我们现在将学习如何训练神经网络.我们还将学习反向传播算法和Python深度学习中的反向传递. 我们必须找到神经网络权重的最佳值以获得所需的输出.为了训练神经网络,我们使用迭代梯度下降法.我们最初从权重 ...

  6. python去除文本停用词(jieba分词+哈工大停用词表)

    停用词表 上github搜索中文停用词就有很多版本,百度.哈工大等.(自行下载,下面推荐一个,现在github windows平台应该要一些操作或fanqiang才能上,linux系统能直接上) ht ...

  7. python高斯分布训练_Python画图高斯分布的示例

    如下所示: import matplotlib.pyplot as plt import numpy as np import math def gaussian(sigma, x, u): y = ...

  8. Python统计西游记妖怪出场次数(使用jieba分词)

    import jieba monsters = ['国丈', '虎力大仙', '赛太岁', '鹿力大仙', '玉面公主', '白衣秀士','九头虫', '黄风怪', '羊力大仙', '九灵元圣', ' ...

  9. [Python]利用jieba.analyse进行 关键词 提取

    1.简单应用 代码如下: 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @File : jieba.analyse.py 4 # @Aut ...

最新文章

  1. 张高兴的 UWP 开发笔记:横向 ListView
  2. 易观于揚:数据分析是人工智能的基础构件
  3. Python 正则 —— 捕获与分组
  4. 【MySQL经典案例分析】关于数据行溢出由浅至深的探讨
  5. java把map值放入vector_Thinking in java基础之集合框架
  6. centos设置时间时区
  7. (Object detection)目标检测从入门到精通——第四部分anchor box
  8. 用python完成图形输出设备_用 Python 在多个输出设备上播放多个声音文件
  9. 5.1 Lilypond五线谱
  10. 【转】Pickit 3 Programmer使用说明及 烧写程序步骤
  11. 神经网络模型分类总结
  12. 即将到来的Xcode8 都更新了什么?
  13. python把两个图片合成一张图
  14. 【Python】 matplotlib 以pdf形式保存图片
  15. 淘宝技术发展3(Oracle/支付宝/旺旺)
  16. Linux常用操作命令和命令行编辑快捷键
  17. 计算机导论课后总结三
  18. html5白鹭引擎,白鹭开发者中心
  19. centos 如何查看操作系统是哪个版本
  20. 如何备份VMware虚拟磁盘文件并移植到其他虚拟机

热门文章

  1. (PPT)Python程序设计课程教学内容组织与教学方法实践
  2. Python自动运维系列:每天凌晨定时执行特定任务
  3. windows版一键绕id工具_【实用工具】一键关闭/开启Windows防火墙、禁止更新系统...
  4. jwt判断token是否过期_4spring-security5整合jwt做登录、权限验证,全网最全!!!可用...
  5. mysql外键实例学生成绩_mysql 外键(foreign key)的详解和实例
  6. 小米10鸿蒙版,小米10青春版高清渲染图公布:轻薄得不像5G手机
  7. python 操作mysql_Python 操作MySQL
  8. python colormap_Python科学计算技巧积累八——colormap 和 contour map的绘制
  9. C++安全方向(三):3.2 单项散列函数的应用场景
  10. dhcp获取i需要trunk_Cisco三层交换上给不同Vlan配置不同的DHCP