基础语法解决------》哈姆雷特词频统计

'''
Text word frequency statistics
use wordcloud'''import wordcloud
import timedef file_change(path="../use_data/hamlet.txt"):'''处理特殊字符和大写'''with open(path) as fe:fe = fe.read().lower()  # 全部转为小写for i in '!"#$%^&*()_+-=~`:;{}[]\|<>,.?/':fe = fe.replace(i, " ")return fedef main():hamlet_txt = file_change()hamlet_list = hamlet_txt.split()# split() 去除所有空字符 \n " " \t \r# split(" ") 只去除空格dic = {}for i in hamlet_list:c = hamlet_list.count(i)      # 得到词频统计,耗时较多dic[i] = cham_list = list(dic.items())      # 转化为列表# ham_list.sort(key = lambda s:s[1],reverse = True)               # 将列表进行排序ham_list = sorted(ham_list, key=lambda s: s[1], reverse=True)  # sorted方法for i in range(10):m, n = ham_list[i]print("{}:{}".format(m, n))  # 将出现频率最高的十个单词打印def main1():ham_ls = file_change()words = ham_ls.split()counts = {}for word in words:counts[word] = counts.get(word, 0) + 1items = list(counts.items())items.sort(key=lambda s: s[1], reverse=True)for i in range(10):m, n = items[i]print("{0:<10}{1:>5}".format(m, n))start = time.perf_counter()if __name__ == '__main__':main()print("spend {} second".format(time.perf_counter() - start))

在程序段,使用count统计词频,耗时13秒

使用字典get方法只需要0.11秒

使用 wordcloud 库显示词频

'''
Text word frequency statistics
use wordcloud'''import wordcloud
import timedef file_change(path="../use_data/hamlet.txt"):'''处理特殊字符和大写'''with open(path) as fe:fe = fe.read().lower()  # 全部转为小写for i in '!"#$%^&*()_+-=~`:;{}[]\|<>,.?/':fe = fe.replace(i, " ")return fe# 使用wordcloud 库
start = time.perf_counter()text = file_change()
# 创建wordcloud对象
words = wordcloud.WordCloud(width = 500,\height = 500, max_words = 20,min_font_size = 10)
# 统计词汇
words.generate(text)
# 将词汇按数量的大小变为字体的大小生成图片
words.to_file("../use_data/hamlet_words.jpg")print("spend {} second".format(time.perf_counter() - start))

python 统计哈姆雷特词汇频率相关推荐

  1. python 统计哈姆雷特词汇频率_Python练习15:文本单词频率统计:哈姆雷特,练习题,英文版...

    文本词频统计::一篇文章,出现了哪些词?哪些词出现的最多? ‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬ ...

  2. 统计哈姆雷特文本中高频词的个数

    统计哈姆雷特文本中高频词的个数 三国演义人物出场统计 开源代码 讲解视频 kou@ubuntu:~/python$ cat ClaHamlet.py #!/usr/bin/env python # c ...

  3. 用python统计水浒传中的高频词汇

    用python统计水浒传中的高频词汇 #词频统计.py import jieba excludes = {"两个","一个","只见",&q ...

  4. python哈姆雷特词频统计_【Python】哈姆雷特字数统计

    def getText(): #赋予txt哈姆雷特小说-全英文小写-全符号变空格-返回txt txt = open('C:/Users/eternal/Desktop/hamlet.txt','r') ...

  5. python统计文章中的高频词汇_使用Python 统计高频字数的方法

    使用Python 统计高频字数的方法 发布时间:2020-09-17 00:52:12 来源:脚本之家 阅读:112 作者:Silent_Summer 问题 (来自Udacity机器学习工程师纳米学位 ...

  6. python哈姆雷特词频统计_python—文本词频统计 哈姆雷特 txt 下载

    原博文 2020-05-13 15:49 − 文本词频统计 -- Hamlet Hamlet下载 链接:https://pan.baidu.com/s/1Is2mBAED57i6nI38lcnXAA ...

  7. 基于Yarn的Spark环境,统计哈姆雷特词频(1)

    一.最流行的大数据框架Spark Yarn 环境搭建 Spark History Server 以及 Yarn MapReduce History Servcer Spark-submit 提交到Ya ...

  8. 利用Python统计中文或英文文本词频(适合初学者)

    一篇文章出现了那些词语?那些词出现的次数最多? 中文文本?英文文本? 英文文本测试资源:哈默雷特:https://python123.io/resources/pye/hamlet.txt 中文文本测 ...

  9. python中英文字频率_python统计文本字符串里单词出现频率的方法

    本文实例讲述了python统计文本字符串里单词出现频率的方法.分享给大家供大家参考.具体实现方法如下: # word frequency in a text # tested with Python2 ...

最新文章

  1. android百度api配置,Android Studio 配置使用百度api (附带简单样例)(示例代码)
  2. (转) 使用Speech SDK 5.1文字转音频
  3. SQL DBHelp.cs 操作数据库的底层类
  4. CSS基础学习-15-1.CSS 浏览器内核
  5. 前端学习(2891):vue工程化配置
  6. FPGA时钟激励编写(方法三)
  7. 又一辆特斯拉电动汽车撞上警车,都是因为这个功能
  8. Python3+Selenium3+webdriver学习笔记8(单选、复选框、弹窗处理)
  9. Java内存中的堆和栈
  10. python 初步学习
  11. Git21天打卡day9-查看远程仓库分支git branch -a
  12. 利用高阶函数map和reduce将字符串转化成浮点数
  13. VS2005最近项目和最近文件清除
  14. 自动测试-按键精灵使用
  15. Python开发制作酷狗和QQ音乐下载器
  16. mathtype注册表
  17. [ 八爪鱼使用经验] 爬取简单列表数据
  18. 苹果系统 怎么找到共享计算机,Mac电脑怎么访问共享文件夹
  19. luogu 5561 [Celeste-B]Mirror Magic 后缀数组+RMQ+multiset
  20. IDE/SATA/SCSI接口

热门文章

  1. 视频会议再添猛将:视源股份推出有“情怀”的MAXHUB会议平台
  2. elasticsearch优化之多字段搜索multi_match查询
  3. css-doodle 学习第三天, selectors的使用
  4. 文本超出显示省略号的方法
  5. vnc server安装教程,完成vnc server的安装教程只需9步
  6. 《大教堂和集市》笔记
  7. 多年经验的程序员迷失了自己,该怎么办
  8. 对linux系统4T硬盘分区
  9. 协同办公管理软件都需要有哪些功能?
  10. 计算机基础知识教案结束语,【计算机基础论文】计算机基础教学模式探索与思考分析(共4342字)...