本文章环境为Pychram-python3.8

一·确定文件位置

确定Walden.txt文件位置
例如:

将Walden.txt与py代码文件放至同一文件夹

二·逐步前进

1. 打开文件

f=open('Walden.txt','r',encoding='utf-8')

因为直接放在同一文件夹,文件路径为Walden.txt。若非同一文件夹,可以右键Walden.txt选择属性:


如上图,放在桌面上的Walden.txt文件的属性显示位置为C:\Users\iHU\Desktop

'r’为读文本,从Walden.txt文件中提取文本数据;

而encoding='utf-8’则是转化文本数据格式,以utf-8格式输出

可以加一句print(f.read())观察到

若不加encoding=‘utf-8’

则会显示编码错误(illegal multibyte sequence )

2. 使用函数更改文本,便于计数

首先import re
把大写字母转为小写line=line.lower()
将各种符号转化为空格line=re.sub('[,.?;:"\'!]','',line)

3.将结果放入列表words,用空格分隔单词

words=line.split()

4.设置counter函数

from collections import Counter
def counter(words):return Counter(words).most_common(10000)

记录列表words中出现的单词词频,并按大到小的顺序输出(most_common(10000)中的10000是输出元素数范围)

5.放入字典

dict={}
dict=counter(words)
print(dict)

利用字典性质,去重复元素

三·最终效果

import re
f=open('Walden.txt','r',encoding='utf-8')
line=f.read()
line=line.lower()
line=re.sub('[,.?;:"\'!]','',line)
words=line.split()
from collections import Counter
def counter(words):return Counter(words).most_common(10000)
dict={}
dict=counter(words)
print(dict)

执行

【作业】python——小说Walden的词频统计,并从高到低排序相关推荐

  1. Walden单词统计并从高到低排序

    import collections # 调用collections a=open("Walden.txt","r").read() # 以只读方式打开并读取瓦 ...

  2. Python实例分析——文本词频统计

    基于中国大学mooc网嵩天老师的<Python语言程序设计>课程实例 文章目录 一.数字文本 pi 二.英文文本 *Hamlet* 三.中文文本<三国演义> 一.数字文本 pi ...

  3. 北京交通大学Python课程设计大作业(四)——典籍词频统计

    北京交通大学Python课程设计大作业(四)--典籍词频统计 文章目录 北京交通大学Python课程设计大作业(四)--典籍词频统计 一.词频统计任务介绍 二.典籍词频统计python源代码如下 三. ...

  4. Python中文分词及词频统计

    Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...

  5. 使用Python+NLTK实现英文单词词频统计

    使用Python+NLTK实现英文单词词频统计 使用PythonNLTK实现英文单词词频统计 应用场景 Fork Me 参考运行环境 流程步骤图 详细步骤 读取文件 过滤特殊符号以及还原常见缩写单词 ...

  6. 使用python进行字频统计和词频统计

    问题描述 读取给定的语料库,根据制表符'\t'划分其文本与标签,将获得的文本仅保留汉字部分,并按字划分,保存在列表中,至少使用一种方法,统计所有汉字的出现次数,并按照从高到低的顺序排序:至少使用一种方 ...

  7. python红楼梦人物词频统计_用 Python 分析《红楼梦》

    1 前言 两个月以来,我通过互联网自学了一些文本处理的知识,用自然语言处理和机器学习算法对<红楼梦>进行了一些分析.这个过程中我找到了一些有趣的发现,所以我想写一篇文章,既㲌与大家分享和讨 ...

  8. Python字典简单实现词频统计

    目录 问题引入: 原理: 基本流程: 词频统计 ①录入待统计的句子 ②分割为多个单词 ③创建字典 利用Python内置库快速实现词频统计 全部代码 普通方法 方法二:get()实现 内置库实现 Pyt ...

  9. python红楼梦人物词频统计_通过数据挖掘能分析《红楼梦》各回的真伪吗?

    可以的.小智最近就尝试通过用机器学习的方法,分析了一下红楼梦后四十回的真伪. 以下内容引自小智的微信公众号,转载需申请授权. ------------------------------------- ...

最新文章

  1. Linux socket TIME_WAIT 优化
  2. Data Protection Manager 2010 系列之安装部署
  3. 算法改进有多快?是否比迭代硬件收益更大?这是MIT的结论
  4. 《全栈营销之如何制作个人博客》之二:php环境安装及个人博客后台搭建 让你的博客跑起来...
  5. C# 遍历List 并删除某个元素
  6. visual studio 2017发布dotnet core到docker
  7. linux 内核 发送数据类型,Linux内核数据类型及跨平台
  8. 域名系统(DNS)概述
  9. Linux chapter 5
  10. 后疫情时代这家在线教育机构如何乘“云”而上
  11. 解决servlet中post请求和get请求中文乱码现象
  12. Hyper-V虚拟机设置固定IP
  13. HTML汇率转换代码,利用JS实现汇率转换工具
  14. 【情感分析:挖掘观点、情感和情绪】读书笔记-02
  15. CF1320E Treeland and Viruses
  16. [JSP]错误信息、错误处理
  17. 高德地图自定义定位按钮后搜索周边
  18. python爬取微信好友头像_使用python itchat包爬取微信好友头像形成矩形头像集的方法...
  19. 迎新春,送关怀,送温暖|云畅科技走访慰问三湘社区
  20. Mac电脑使用:Mac电脑如何用自带的Safari浏览器,一键翻译英文网页为中文网页

热门文章

  1. SAS和蒙特卡罗模拟(3):SAS随机数函数及CALL子程序
  2. 用 Python 读取气象环境数据并绘图
  3. friendfeed如何使用mysql
  4. 第三章 multidimensional scaling
  5. 加密市场月爆仓200亿背后:谁离开了?
  6. JQ的全选,反选,不全选
  7. 一个上海程序员的一天工作日志
  8. b+树时间复杂度_图解:计算机数据结构中的 6 种「树」,你心中有数了吗?
  9. 输入年输出属相编程c语言,妙趣横生C语言.ppt
  10. Android autoLink的注意点