python统计单词出现次数

做单词词频统计,用字典无疑是最合适的数据类型,单词作为字典的key, 单词出现的次数作为字典的 value,很方便地就记录好了每个单词的频率,字典很像我们的电话本,每个名字关联一个电话号码。

下面是具体的实现代码,实现了从importthis.txt文件读取单词,并统计出现次数最多的5个单词。# -*- coding:utf-8 -*-

import io

import re

class Counter:

def __init__(self, path):

"""

:param path: 文件路径

"""

self.mapping = dict()

with io.open(path, encoding="utf-8") as f:

data = f.read()

words = [s.lower() for s in re.findall("w ", data)]

for word in words:

self.mapping[word] = self.mapping.get(word, 0) 1

def most_common(self, n):

assert n > 0, "n should be large than 0"

return sorted(self.mapping.items(), key=lambda item: item[1], reverse=True)[:n]

if __name__ == '__main__':

most_common_5 = Counter("importthis.txt").most_common(5)

for item in most_common_5:

print(item)

执行效果:('is', 10)

('better', 8)

('than', 8)

('the', 6)

('to', 5)

更多python教程,推荐学习:Python视频教程

以上就是python统计单词出现次数的详细内容,更多请关注jquery中文网其它相关文章!

本文原创发布jQuery中文网,转载请注明出处,感谢您的尊重!

您可能感兴趣的文章:

python统计频数_python统计单词出现次数相关推荐

  1. Mapreduce程序 统计文件中每个单词出现次数

    mapreduce程序 统计文件中每个单词出现次数 调用MapReduce对文件中各个单词出现次数进行统计 一.安装环境 二.准备工作 1.创建Hadoop账户 2.更新 apt 3.安装vim 4. ...

  2. 用python统计文本里的单词出现次数最多的10个

    python入门教程至此已学习完毕,下面是结业脚本:(一部分是书里的源码,一部分是自己加的练习题) #写一个文本统计的脚本:计算并打印有关文本文件的统计数据,包括文件里包含多少个字符.行.单词数,以及 ...

  3. 怎么用python统计字数_Python统计字数的思路详解

    这篇文章主要介绍了Python 统计字数的思路详解,文中还给大家提供了不借助第三方模块的解决方法,感兴趣的朋友一起看看吧 问题描述: 用 Python 实现函数 count_words(),该函数输入 ...

  4. python四级考试_Python统计四六级考试的词频

    现在是开学之初,风华正茂的青年才俊们应该已经在图书馆占好了座位,开始备战 6/12 月份的英语四六级考试了吧!想当年,pk 哥四级考试前也在图书馆待了一阵子,后来四级考了 450 分惊险过关,六级考试 ...

  5. python做统计字符_python统计字符个数

    Python count()方法 描述 Python count() 方法用于统计字符串里某个字符出现的次数.可选参数为在字符串搜索的开始与结束位置. 语法 count()方法语法: str.coun ...

  6. python统计一个字符串中单词出现次数

    #!/usr/bin/env python # -*- coding:utf-8 -*-str = "cease to struggle and you cease to live" ...

  7. python词频统计代码_python统计词频

    一.程序分析 (1)将文件读入缓冲区(dst指文本文件存放路径,设置成形参,也可以不设,具体到函数里设置) def process_file(dst): # 读文件到缓冲区try: # 打开文件 tx ...

  8. python统计词频_python统计词频

    一.程序分析 (1)将文件读入缓冲区(dst指文本文件存放路径,设置成形参,也可以不设,具体到函数里设置) def process_file(dst): # 读文件到缓冲区try: # 打开文件 tx ...

  9. python统计词频_Python统计四六级考试的词频

    Python统计四六级考试的词频 此文首发于公众号 「Python知识圈」, 欢迎直接去公众号查看 阅读文本大概需要 4.6 分钟. 今天是教师节,先祝天下所有老师教师节快乐,感谢您在我学生时代对我的 ...

  10. python excel处理重复行并统计个数_python统计一个文本中重复行数的方法

    python统计一个文本中重复行数的方法 这篇文章主要介绍了python统计一个文本中重复行数的方法,涉及针对Python中dict对象的使用及相关本文的操作,具有一定的借鉴价值,需要的朋友可以参考下 ...

最新文章

  1. 推荐系统召回四模型之全能的FM模型
  2. crontab 知识查阅
  3. Netty源码分析--NIO(一)
  4. 成功解决在excel表格中仅在某列内插入一个空白单元格,使其下部的数据整体下移一格
  5. Hibernate面试总结
  6. mqtt调试助手_腾讯物联网开发平台入门操作,如何使用MQTT协议上传温度湿度数据...
  7. (13)ISE14.7bit文件生成mcs文件(FPGA不积跬步101)
  8. adb shell top 使用
  9. mysql8日志文件密码_mysql8 参考手册--mysqlbinlog-处理二进制日志文件的实用程序
  10. DB2数据库指定时间点恢复案例
  11. Educoder关联规则挖掘
  12. 2018/5/7~2018/5/11 周记
  13. [剑指Offer] 第5章课后题详解
  14. 【企业架构】2022年TOGAF认证是否仍然值得
  15. __attribute__((weak)) 简介及作用
  16. 在linux下刷B站方法总结
  17. Android获取天气预报Demo
  18. Java学习笔记(五):一张图总结完JVM8基础概念
  19. java中定义ListNode
  20. 深入C#里static readonly的安全性与内存分配[原创]

热门文章

  1. 22.客户端识别与 cookie 机制
  2. 97. PATH_SEPARATOR 和 DIRECTORY_SEPARATOR
  3. 6. Browser 对象 - Screen 对象(2)
  4. 应用安全 - Web安全 - 逻辑漏洞整理
  5. 高性能极致用户体验前端开发实战
  6. python课堂整理1
  7. reset.css(样式重置)
  8. Django框架详细介绍---认证系统
  9. PHP—通过HTML网页请求,PHP页面显示源码不能解析
  10. pta Percolate Up and Down(最小堆的插入维护和删除维护)