2018年9月7日在百度google没有找到python统计中文词组的,查出来的都是统计英文单词,词组的,所以我想来实现python中文词组统计分享。

首先我是用textrank4zh库将句子转化成词组

from textrank4zh import TextRank4Keyword

text = open("wc_clear.txt").read()

tr4w = TextRank4Keyword()

tr4w.analyze(text=text, lower=True, window=2)

with open("wc_clear_phrase.csv",'w') as f:

for words in tr4w.words_all_filters:

f.write('/'.join(words))

其中wc_clear.txt

而wc_clear_phrase.csv就变成:

之后运行下列代码:

#_*_coding:utf-8_*_

import pandas as pd

text = open("wc_clear_phrase.csv").read()

li=text.split("/")

counte_phrase_phrase=[]

counte_phrase_times=[]

for i in range(5):

counte_phrase_times.append(text.count(li[i]))

counte_phrase_phrase.append(li[i])

pdf=pd.DataFrame({"phrase":counte_phrase_phrase,

"times":counte_phrase_times}).sort_values("times",ascending=False)

print(pdf)

输出:

因为我文本多,如果全部运行起来很慢,所以我演示用了range(5),但在实际运行时我是用range(len(li))。

嗯,代码很简单,用"context.count(str)"如:text.count(li[i]) 返回int型匹配到的次数。

再用pandas.DataFrame存二维数组。

假如有需要的话进一步分析统计:

from matplotlib.font_manager import FontProperties

import seaborn as sns

zhfont=FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf',size=14)

sns.set(font=zhfont.get_name())

sns.barplot("phrase", "times", palette="RdBu_r", data=pdf_)

值得注意的是zhfont=FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf',size=14) 参考知乎的改seaborn 的字体,要不然seaborn图是显示不了中文。

输出为:

嗯,很简单是不是!

python中文词组统计次数_python统计中文词组出现次数相关推荐

  1. python统计中文字符的个数_python统计不同字符的个数_后端开发

    c++怎么将字符串转数字_后端开发 在"c++"中可以使用"atoi"库函数将字符串转成数字,其语法是"int atoi(const char *np ...

  2. python列表统计每个元素出现次数_python 统计list中各个元素出现的次数的几种方法...

    利用字典dict来完成统计 举例: a = [1, 2, 3, 1, 1, 2] dict = {} for key in a: dict[key] = dict.get(key, 0) + 1 pr ...

  3. python统计文件中每个单词出现的次数_python统计文本中每个单词出现的次数

    .python统计文本中每个单词出现的次数: #coding=utf-8 __author__ = 'zcg' import collections import os with open('abc. ...

  4. python统计txt文件中不同文字出现的次数_Python统计文本词汇出现次数的实例代码...

    问题描述 有时在遇到一个文本需要统计文本内词汇的次数 的时候 ,可以用一个简单的python程序来实现. 解决方案 首先需要的是一个文本文件(.txt)格式(文本内词汇以空格分隔),因为需要的是一个程 ...

  5. python做统计字符_python统计字符个数

    Python count()方法 描述 Python count() 方法用于统计字符串里某个字符出现的次数.可选参数为在字符串搜索的开始与结束位置. 语法 count()方法语法: str.coun ...

  6. python分词统计词频_python 实现中文分词统计

    总是看到别人用Python搞各种统计,前端菜鸟的我也来尝试了一把.有各种语义分析库在,一切好像并不是很复杂.不过Python刚开始看,估计代码有点丑. 一.两种中文分词开发包 THULAC(THU L ...

  7. python统计中文字符的个数_python统计中文字符数量的两种方法

    方法一: def str_count(str): '''找出字符串中的中英文.空格.数字.标点符号个数''' count_en = count_dg = count_sp = count_zh = c ...

  8. python统计文件中每个单词出现的次数_Python统计单词出现的次数

    题目: 统计一个文件中每个单词出现的次数,列出出现频率最多的5个单词. 前言: 这道题在实际应用场景中使用比较广泛,比如统计历年来四六级考试中出现的高频词汇,记得李笑来就利用他的编程技能出版过一本背单 ...

  9. python如何统计出现的次数_Python统计日志中每个IP出现次数的方法

    本文实例讲述了Python统计日志中每个IP出现次数的方法.分享给大家供大家参考.具体如下: 这脚本可用于多种日志类型,本人测试MDaemon的all日志文件大小1.23G左右,分析用时2~3分钟 代 ...

最新文章

  1. Uploadify jquery+falsh+UploadHandler.ashx
  2. python音频聚类_利用python的KMeans和PCA包实现聚类算法
  3. java冒泡函数解释,JS DOM操作 函数 事件 阻止事件冒泡
  4. CSS图片廊实例详解
  5. matlab pdist
  6. ANSIC标准定义的6种预定义宏
  7. 计算机如何玩二十四点游戏,数学二十四点游戏有什么技巧吗?
  8. spring之Bean的生命周期
  9. 发现Diolar 的边缘检测程序好像也有缺点
  10. 黑苹果mac未能安装在你的电脑上_mac电脑上全新视频剪辑软件安装包分享,让你剪辑视频从此无忧!...
  11. SQL高手篇:精典SQL FAQ收藏
  12. 软件项目管理总结(全)
  13. 微信H5页面ios分享失效
  14. 卷积神经网络完整总结
  15. CVPR 2022 | AAAI2022 | WACV 2022 超分辨率(super-resolution)方向上接收论文总结
  16. Android8.1 MTK平台 增加定时开关机功能
  17. 陈华主讲后盾网Laravel框架重入门到实战教程 Laravel博客项目实战教程 包含课件源码
  18. HTML搜索结果显示,百度搜索结果如何显示你的网站logo及官网?
  19. Python办公自动化,合并excel+pdf转word等
  20. 绪论(p1-p2) author:run

热门文章

  1. C++ 编写一个不可复制的类
  2. 美通社再度成为国际消费类电子产品展(CES)官方合作伙伴
  3. linux基础[1](重置root密码)
  4. 交换机实现楼层间通信
  5. 逆向爬虫27 sojson反调加密
  6. ohmyzsh 新功能解决文件全路径拷贝痛点
  7. 树莓派python3.6 tensorflow_树莓派上运行Tensorflow
  8. html富强民主鼠标特效,Canvas鼠标点击特效(富强、民主...)、收藏
  9. 多种支付渠道路由方案有哪些?
  10. 微信如何关闭城市服务定位服务器,出门前打开微信城市服务功能,就可以知道哪里是最热闹的地方了!...