本文章环境为Pychram-python3.8

一·确定文件位置

确定Walden.txt文件位置
例如：

将Walden.txt与py代码文件放至同一文件夹

二·逐步前进

1. 打开文件

f=open('Walden.txt','r',encoding='utf-8')

因为直接放在同一文件夹，文件路径为Walden.txt。若非同一文件夹，可以右键Walden.txt选择属性：

如上图，放在桌面上的Walden.txt文件的属性显示位置为C:\Users\iHU\Desktop

'r’为读文本，从Walden.txt文件中提取文本数据；

而encoding='utf-8’则是转化文本数据格式，以utf-8格式输出

可以加一句print(f.read())观察到

若不加encoding=‘utf-8’

则会显示编码错误（illegal multibyte sequence ）

2. 使用函数更改文本，便于计数

首先import re
把大写字母转为小写line=line.lower()
将各种符号转化为空格line=re.sub('[,.?;:"\'!]','',line)
即

3.将结果放入列表words，用空格分隔单词

words=line.split()

4.设置counter函数

from collections import Counter
def counter(words):return Counter(words).most_common(10000)

记录列表words中出现的单词词频，并按大到小的顺序输出(most_common(10000)中的10000是输出元素数范围）

5.放入字典

dict={}
dict=counter(words)
print(dict)

利用字典性质，去重复元素

三·最终效果

import re
f=open('Walden.txt','r',encoding='utf-8')
line=f.read()
line=line.lower()
line=re.sub('[,.?;:"\'!]','',line)
words=line.split()
from collections import Counter
def counter(words):return Counter(words).most_common(10000)
dict={}
dict=counter(words)
print(dict)

执行

【作业】python——小说Walden的词频统计，并从高到低排序相关推荐

Walden单词统计并从高到低排序
import collections # 调用collections a=open("Walden.txt","r").read() # 以只读方式打开并读取瓦 ...
Python实例分析——文本词频统计
基于中国大学mooc网嵩天老师的<Python语言程序设计>课程实例文章目录一.数字文本 pi 二.英文文本 *Hamlet* 三.中文文本<三国演义> 一.数字文本 pi ...
北京交通大学Python课程设计大作业（四）——典籍词频统计
北京交通大学Python课程设计大作业(四)--典籍词频统计文章目录北京交通大学Python课程设计大作业(四)--典籍词频统计一.词频统计任务介绍二.典籍词频统计python源代码如下三. ...
Python中文分词及词频统计
Python中文分词及词频统计中文分词中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...
使用Python+NLTK实现英文单词词频统计
使用Python+NLTK实现英文单词词频统计使用PythonNLTK实现英文单词词频统计应用场景 Fork Me 参考运行环境流程步骤图详细步骤读取文件过滤特殊符号以及还原常见缩写单词 ...
使用python进行字频统计和词频统计
问题描述读取给定的语料库,根据制表符'\t'划分其文本与标签,将获得的文本仅保留汉字部分,并按字划分,保存在列表中,至少使用一种方法,统计所有汉字的出现次数,并按照从高到低的顺序排序:至少使用一种方 ...
python红楼梦人物词频统计_用 Python 分析《红楼梦》
1 前言两个月以来,我通过互联网自学了一些文本处理的知识,用自然语言处理和机器学习算法对<红楼梦>进行了一些分析.这个过程中我找到了一些有趣的发现,所以我想写一篇文章,既㲌与大家分享和讨 ...
Python字典简单实现词频统计
目录问题引入: 原理: 基本流程: 词频统计 ①录入待统计的句子 ②分割为多个单词 ③创建字典利用Python内置库快速实现词频统计全部代码普通方法方法二:get()实现内置库实现 Pyt ...
python红楼梦人物词频统计_通过数据挖掘能分析《红楼梦》各回的真伪吗？
可以的.小智最近就尝试通过用机器学习的方法,分析了一下红楼梦后四十回的真伪. 以下内容引自小智的微信公众号,转载需申请授权. ------------------------------------- ...

【作业】python——小说Walden的词频统计，并从高到低排序