python中文词组统计次数_python统计中文词组出现次数
2018年9月7日在百度google没有找到python统计中文词组的,查出来的都是统计英文单词,词组的,所以我想来实现python中文词组统计分享。
首先我是用textrank4zh库将句子转化成词组
from textrank4zh import TextRank4Keyword
text = open("wc_clear.txt").read()
tr4w = TextRank4Keyword()
tr4w.analyze(text=text, lower=True, window=2)
with open("wc_clear_phrase.csv",'w') as f:
for words in tr4w.words_all_filters:
f.write('/'.join(words))
其中wc_clear.txt
而wc_clear_phrase.csv就变成:
之后运行下列代码:
#_*_coding:utf-8_*_
import pandas as pd
text = open("wc_clear_phrase.csv").read()
li=text.split("/")
counte_phrase_phrase=[]
counte_phrase_times=[]
for i in range(5):
counte_phrase_times.append(text.count(li[i]))
counte_phrase_phrase.append(li[i])
pdf=pd.DataFrame({"phrase":counte_phrase_phrase,
"times":counte_phrase_times}).sort_values("times",ascending=False)
print(pdf)
输出:
因为我文本多,如果全部运行起来很慢,所以我演示用了range(5),但在实际运行时我是用range(len(li))。
嗯,代码很简单,用"context.count(str)"如:text.count(li[i]) 返回int型匹配到的次数。
再用pandas.DataFrame存二维数组。
假如有需要的话进一步分析统计:
from matplotlib.font_manager import FontProperties
import seaborn as sns
zhfont=FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf',size=14)
sns.set(font=zhfont.get_name())
sns.barplot("phrase", "times", palette="RdBu_r", data=pdf_)
值得注意的是zhfont=FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf',size=14) 参考知乎的改seaborn 的字体,要不然seaborn图是显示不了中文。
输出为:
嗯,很简单是不是!
python中文词组统计次数_python统计中文词组出现次数相关推荐
- python统计中文字符的个数_python统计不同字符的个数_后端开发
c++怎么将字符串转数字_后端开发 在"c++"中可以使用"atoi"库函数将字符串转成数字,其语法是"int atoi(const char *np ...
- python列表统计每个元素出现次数_python 统计list中各个元素出现的次数的几种方法...
利用字典dict来完成统计 举例: a = [1, 2, 3, 1, 1, 2] dict = {} for key in a: dict[key] = dict.get(key, 0) + 1 pr ...
- python统计文件中每个单词出现的次数_python统计文本中每个单词出现的次数
.python统计文本中每个单词出现的次数: #coding=utf-8 __author__ = 'zcg' import collections import os with open('abc. ...
- python统计txt文件中不同文字出现的次数_Python统计文本词汇出现次数的实例代码...
问题描述 有时在遇到一个文本需要统计文本内词汇的次数 的时候 ,可以用一个简单的python程序来实现. 解决方案 首先需要的是一个文本文件(.txt)格式(文本内词汇以空格分隔),因为需要的是一个程 ...
- python做统计字符_python统计字符个数
Python count()方法 描述 Python count() 方法用于统计字符串里某个字符出现的次数.可选参数为在字符串搜索的开始与结束位置. 语法 count()方法语法: str.coun ...
- python分词统计词频_python 实现中文分词统计
总是看到别人用Python搞各种统计,前端菜鸟的我也来尝试了一把.有各种语义分析库在,一切好像并不是很复杂.不过Python刚开始看,估计代码有点丑. 一.两种中文分词开发包 THULAC(THU L ...
- python统计中文字符的个数_python统计中文字符数量的两种方法
方法一: def str_count(str): '''找出字符串中的中英文.空格.数字.标点符号个数''' count_en = count_dg = count_sp = count_zh = c ...
- python统计文件中每个单词出现的次数_Python统计单词出现的次数
题目: 统计一个文件中每个单词出现的次数,列出出现频率最多的5个单词. 前言: 这道题在实际应用场景中使用比较广泛,比如统计历年来四六级考试中出现的高频词汇,记得李笑来就利用他的编程技能出版过一本背单 ...
- python如何统计出现的次数_Python统计日志中每个IP出现次数的方法
本文实例讲述了Python统计日志中每个IP出现次数的方法.分享给大家供大家参考.具体如下: 这脚本可用于多种日志类型,本人测试MDaemon的all日志文件大小1.23G左右,分析用时2~3分钟 代 ...
最新文章
- Uploadify jquery+falsh+UploadHandler.ashx
- python音频聚类_利用python的KMeans和PCA包实现聚类算法
- java冒泡函数解释,JS DOM操作 函数 事件 阻止事件冒泡
- CSS图片廊实例详解
- matlab pdist
- ANSIC标准定义的6种预定义宏
- 计算机如何玩二十四点游戏,数学二十四点游戏有什么技巧吗?
- spring之Bean的生命周期
- 发现Diolar 的边缘检测程序好像也有缺点
- 黑苹果mac未能安装在你的电脑上_mac电脑上全新视频剪辑软件安装包分享,让你剪辑视频从此无忧!...
- SQL高手篇:精典SQL FAQ收藏
- 软件项目管理总结(全)
- 微信H5页面ios分享失效
- 卷积神经网络完整总结
- CVPR 2022 | AAAI2022 | WACV 2022 超分辨率(super-resolution)方向上接收论文总结
- Android8.1 MTK平台 增加定时开关机功能
- 陈华主讲后盾网Laravel框架重入门到实战教程 Laravel博客项目实战教程 包含课件源码
- HTML搜索结果显示,百度搜索结果如何显示你的网站logo及官网?
- Python办公自动化,合并excel+pdf转word等
- 绪论(p1-p2) author:run
热门文章
- C++ 编写一个不可复制的类
- 美通社再度成为国际消费类电子产品展(CES)官方合作伙伴
- linux基础[1](重置root密码)
- 交换机实现楼层间通信
- 逆向爬虫27 sojson反调加密
- ohmyzsh 新功能解决文件全路径拷贝痛点
- 树莓派python3.6 tensorflow_树莓派上运行Tensorflow
- html富强民主鼠标特效,Canvas鼠标点击特效(富强、民主...)、收藏
- 多种支付渠道路由方案有哪些?
- 微信如何关闭城市服务定位服务器,出门前打开微信城市服务功能,就可以知道哪里是最热闹的地方了!...