python分词训练_python练习17:用jieba分词做关键词提取,用matplotlib做可视化
jieba分词 是一款开源的中文分词包,同时它还带有分析模块,可以用TF-IDF等算法进行关键词分析
jieba
下面的小程序的基本思路是:
通过jieba从 保存好的txt文本中提取关键词,根据关键词的权重等决定关键词的文字大小,用matplotlib将它们呈现出来
#coding:utf-8
import os
import tkFileDialog #文件对话框模块
import jieba #jieba分词模块
import jieba.analyse #jieba分词分析模块
import codecs #中文编码转换模块
import matplotlib.pyplot as plt
from pylab import *
mpl.rcParams['font.sans-serif'] = ['simhei'] # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
default_dir = r"D:/py/" # 设置默认打开目录
fname = tkFileDialog.askopenfilename(title=u"选择文件",
initialdir=(os.path.expanduser(default_dir))) #选择供分析用的文本文件
fig=plt.figure()
fig.suptitle(u'关键词语TF-IDF分析',fontsize=14,fontweight='bold')
ax=fig.add_subplot(111)
ax.set_xlim(0,10)
ax.set_ylim(0,10)
fig.subplots_adjust(top=0.85)
with codecs.open(fname) as fr:
s=fr.read()
s_out=jieba.analyse.extract_tags(s, withWeight=True) #用jieba提取关键词
max_weight=max(list(map(lambda y: y[1],s_out)))
f_scale=int(1/max_weight)
for x, w in s_out:
print('%s %s' %(x,w))
locate=np.random.rand(2)
size=int(f_scale64w)
col=int(8w)+1
ax.text(locate[0]10,locate[1]*10,x,
fontsize=size,fontdict=None,color='blue') #pad表示与字的边距
plt.show()
从百度百科上取一段文字做测试:
蒙古族 编辑
蒙古族(蒙古语:ᠮᠣᠩᠭᠣᠯᠦᠨᠳᠦᠰᠦᠲᠡᠨ,西里尔字母:Монгол үндэстэн),是主要分布于东亚地区的一个传统游牧民族,是中国的少数民族之一,同时也是蒙古国的主体民族。此外,蒙古族在俄罗斯等亚欧国家也有分布,鄂温克族和土族也有时被认为是蒙古族的分支。[1]
蒙古族始源于古代望建河(今额尔古纳河)东岸一带。13世纪初,以成吉思汗为首的蒙古部统一了蒙古地区诸部,逐渐形成了一个新的民族共同体。
蒙古族人民世居草原,以畜牧为生计。过着“逐水草而居”的游牧生活,尽管这种生存方式在现代社会被弱化,但仍然被视作蒙古族的标志。
蒙古族在科学文化事业上比较发达,而且音乐、舞蹈也在艺术上居于相对显赫的地位[2] 。
《蒙古秘史》、《蒙古黄金史》、《蒙古源流》被称为蒙古族的三大历史巨著,其中《蒙古秘史》被联合国教科文组织确定为世界著名文化遗产。英雄史诗《江格尔》是中国的三大史诗之一。[3]
中文名 蒙古族 外文名 Mongols 人 口 约1000万 人口分布 中国,蒙古国,俄罗斯等 语 言蒙古语 文 字回鹘式蒙古文,西里尔蒙古文 信 仰萨满教,藏传佛教,回教 别 称 蒙古人,草原骄子,马背上的民族 方 言 内蒙古,卫拉特,巴尔虎布里亚特
目录
1 名称
2 历史
▪ 原始社会时期
▪ 民族的统一与对外征伐
▪ 元朝灭亡后的蒙古诸部
▪ 蒙古国的独立与内蒙古自治区的建立
3 人口
4 政治
原文比较长,就不全部贴上了。
关键词分析结果:
蒙古 0.169165636577
蒙古族 0.126360191488
蒙古人 0.055626259173
成吉思汗 0.0423217004291
民族 0.033926093091
四胡 0.0298077928858
....
分析之后的可视化结果:
image.png
python分词训练_python练习17:用jieba分词做关键词提取,用matplotlib做可视化相关推荐
- python 英文关键词提取_python 利用jieba.analyse进行 关键词提取
1.简单应用 代码如下: #!/usr/bin/env python # -*- coding: utf-8 -*- # @File : jieba.analyse.py # @Author: 赵路仓 ...
- 利用jieba.analyse进行 关键词 提取
利用jieba.analyse进行 关键词 提取 import jieba.analysetext='2020年5月11日至17日,全市共接报电信诈骗警情80宗.' Key=jieba.analyse ...
- python模型训练_python模型训练与预测练习
python模型训练与预测练习 发布时间:2018-03-09 17:49, 浏览次数:368 , 标签: python 我是照着YouTube上的机器学习视频做的,视频里讲的比较简洁,下来自己做遇到 ...
- 日语python怎么说_python+Mecab,一次性学会日语分词
某天在磕N1听力材料的时候,突然想到:"如果把听力里的高频词都背熟,那我的日语听力岂不是畅通无阻?"(我可真是个小机灵鬼) 实现思路就是"分词+统计",先写一个 ...
- python神经网络训练_Python深度学习训练神经网络
我们现在将学习如何训练神经网络.我们还将学习反向传播算法和Python深度学习中的反向传递. 我们必须找到神经网络权重的最佳值以获得所需的输出.为了训练神经网络,我们使用迭代梯度下降法.我们最初从权重 ...
- python去除文本停用词(jieba分词+哈工大停用词表)
停用词表 上github搜索中文停用词就有很多版本,百度.哈工大等.(自行下载,下面推荐一个,现在github windows平台应该要一些操作或fanqiang才能上,linux系统能直接上) ht ...
- python高斯分布训练_Python画图高斯分布的示例
如下所示: import matplotlib.pyplot as plt import numpy as np import math def gaussian(sigma, x, u): y = ...
- Python统计西游记妖怪出场次数(使用jieba分词)
import jieba monsters = ['国丈', '虎力大仙', '赛太岁', '鹿力大仙', '玉面公主', '白衣秀士','九头虫', '黄风怪', '羊力大仙', '九灵元圣', ' ...
- [Python]利用jieba.analyse进行 关键词 提取
1.简单应用 代码如下: 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @File : jieba.analyse.py 4 # @Aut ...
最新文章
- 张高兴的 UWP 开发笔记:横向 ListView
- 易观于揚:数据分析是人工智能的基础构件
- Python 正则 —— 捕获与分组
- 【MySQL经典案例分析】关于数据行溢出由浅至深的探讨
- java把map值放入vector_Thinking in java基础之集合框架
- centos设置时间时区
- (Object detection)目标检测从入门到精通——第四部分anchor box
- 用python完成图形输出设备_用 Python 在多个输出设备上播放多个声音文件
- 5.1 Lilypond五线谱
- 【转】Pickit 3 Programmer使用说明及 烧写程序步骤
- 神经网络模型分类总结
- 即将到来的Xcode8 都更新了什么?
- python把两个图片合成一张图
- 【Python】 matplotlib 以pdf形式保存图片
- 淘宝技术发展3(Oracle/支付宝/旺旺)
- Linux常用操作命令和命令行编辑快捷键
- 计算机导论课后总结三
- html5白鹭引擎,白鹭开发者中心
- centos 如何查看操作系统是哪个版本
- 如何备份VMware虚拟磁盘文件并移植到其他虚拟机
热门文章
- (PPT)Python程序设计课程教学内容组织与教学方法实践
- Python自动运维系列:每天凌晨定时执行特定任务
- windows版一键绕id工具_【实用工具】一键关闭/开启Windows防火墙、禁止更新系统...
- jwt判断token是否过期_4spring-security5整合jwt做登录、权限验证,全网最全!!!可用...
- mysql外键实例学生成绩_mysql 外键(foreign key)的详解和实例
- 小米10鸿蒙版,小米10青春版高清渲染图公布:轻薄得不像5G手机
- python 操作mysql_Python 操作MySQL
- python colormap_Python科学计算技巧积累八——colormap 和 contour map的绘制
- C++安全方向(三):3.2 单项散列函数的应用场景
- dhcp获取i需要trunk_Cisco三层交换上给不同Vlan配置不同的DHCP