python统计一个大文件中很多小文件里面的词频

#!/usr/bin/env python3.6

from collections import Counter

from functools import reduce

from operator import add

from pathlib import Path

ps = Path().glob('*.txt')

c = reduce(add, [Counter(p.read_text().split()) for p in ps])

print(c.most_common())

如何用python对文章中文分词并统计词频

1、全局变量在函数中时加入global声明

2、获页内容存入文件时的编码ascii进行正则匹配时需要decode为GB2312,当匹配到的中文写入文件时需要encode成GB2312写入文件。

3、中文字符匹配过滤正则表达式为ur'[\u4e00-\u9fa5] ',使用findall找到所有的中文字符存入分组

4、KEY,Value值可以使用dict存储,排序后可以使用list存储

5、字符串处理使用split分割,然后使用index截取字符串,判断哪些是名词和动词

6、命令行使用需要导入os,os.system(cmd)

请问如何用python提取出一个txt文件中词频最高的二十个词语并从大到小输出?

用python找出一篇文章中词频最高的20个单词

import re

from collections import Counter

from matplotlib.pyplot import pie,show

f = 't.txt'

c = Counter(re.findall(r'(\w{3,})',open(f).read().lower())).most_common(20)

pie([i[1] for i in c],labels=[i[0] for i in c])

show()

Python 如何对输出的词频结果按字母顺序排序(NLTK)

import nltk

file_b = open('a.txt', 'r')

tokens = nltk.word_tokenize(file_b)

fdist1 = nltk.FreqDist(tokens)

for key,val in sorted(fdist1.iteritems())[:5]:

print ("{1}: {0}".format(key, round(val / len(tokens), 2)))

版权声明:本站所有文章皆为原创,欢迎转载或转发,请保留网站地址和作者信息。

python分词统计词频_-用python找出一篇文章中词频最高的20个单词相关推荐

  1. python列表操作——列表嵌套列表,找出嵌套列表中共同的元素

    今天在项目中遇到了一个列表嵌套找出共同元素的问题,本来懒得造轮子,直接百度一波,查了一圈不是只有两个list就是使用Intersection这个函数,可能这个功能过于简单了没人写,我试着用Inters ...

  2. python counter 出现次数最少的元素_[PY3]——找出一个序列中出现次数最多的元素/collections.Counter 类的用法...

    问题 怎样找出一个序列中出现次数最多的元素呢? 解决方案 collections.Counter 类就是专门为这类问题而设计的, 它甚至有一个有用的 most_common() 方法直接给了你答案 c ...

  3. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  4. python 排序统计滤波器_马尔可夫链+贝叶斯滤波器的Python展示

    知乎上已经有很多的学习笔记,但读完后总有一种这东西不是我的我理解不了的感觉,所以想试着写一篇文章来加深一下自己的理解,也记录下学习中的盲点. 非常推荐大家去Github看一个项目: https://g ...

  5. python框架django书籍_有Python基础,刚接触web框架的Django初学者。

    本文面向:有Python基础,刚接触web框架的Django初学者. 环境:windows7 python3.5.1 pycharm Django 1.10版 pip3 一.Django简介 百度百科 ...

  6. python去干扰线_验证码——python去除干扰线

    [在上一篇文章中,我们使用sklearn对验证码进行了识别,为了提高识别率,今天来进行进一步优化. 观察验证码后,发现还可以对其进行旋转处理,这个验证码旋转角度在-30-30 一.验证码识别的概念 机 ...

  7. python:实现统计一篇文章中每个单词出现的次数 (附完整源码)

    python:实现统计一篇文章中每个单词出现的次数 文本分析是Python的一大利器.以下是一个简单的例子,用来统计一篇文章中每个单词出现的次数: text = "this is a sam ...

  8. python神经网络训练数据_用Python从头开始实现一个神经网络

    注:本篇文章非原创,翻译自Implementing a Neural Network from Scratch in Python – An Introduction​www.wildml.com ...

  9. python 函数式编程 库_使用Python的toolz库开始函数式编程的方法

    在这个由两部分组成的系列文章的第二部分中,我们将继续探索如何将函数式编程方法中的好想法引入到 Python中,以实现两全其美. 在上一篇文章中,我们介绍了不可变数据结构 . 这些数据结构使得我们可以编 ...

最新文章

  1. Nginx配置中一个不起眼字符/的巨大作用,失之毫厘谬以千里
  2. Spark _20 _Spark_Shuffle调优
  3. AngularJS中的表达式
  4. 1:1 人脸比对 开源_打破5个神话:在高等教育中使用开源
  5. 过新年,换新机,现在购买5G手机划算吗?
  6. LDAP实现企业异构平台的统一认证
  7. 小程序input获得焦点触发_小程序学习(三)
  8. delphi调用chrome内核进行浏览
  9. linux环境下,集群中Hadoop版本更换
  10. bzoj3207主席树
  11. s3f9454可c语言编程,微处理器S3F9454BZZ-DK94
  12. 微信公众平台登录 超详解 Springboot版
  13. 用键盘控制鼠标移动的Python脚本
  14. VMware虚拟机Mac-OS-X系统如何切换中英文输入法
  15. 区块链技术应用场景有哪些?
  16. 重庆轻工职业学院计算机期末考试,重庆轻工职业学院教务网络管理系统 http://183.230.5.161:8082,精英高考网...
  17. 解决方案:惠普15-bc012tx笔记本电脑电池掉电快的检测及解决
  18. 通知:首届CISM大赛华东赛区决赛将于30日在马鞍山举行
  19. 常用的BAPI 函数
  20. python里两个等号代表什么_Python 到底是强类型语言,还是弱类型语言?

热门文章

  1. mysql基于SSM框架的众筹平台设计 毕业设计源码211755
  2. 【教程】应用侧连接华为云IoT平台
  3. 使用python爬取高德POI数据,并转换为WGS84经纬度坐标的点矢量
  4. 永磁同步直线电机仿真实例,仿真教学 maxwell16.0版本 包括图中模型以及一个仿真设置要点word文档教程
  5. VBA怎样关闭工作簿和退出Excel
  6. 写博客文档的神器:Typora 、Mathpix Snipping Tool
  7. JVM学习之---了解JIT
  8. 阿里云国际版ECS云服务器欠费会自动释放吗?
  9. 【VA 视频软件】(壹) TheoraConverter.NET
  10. Word快速转换幻灯片文稿(转)