【作业】python——小说Walden的词频统计,并从高到低排序
本文章环境为Pychram-python3.8
一·确定文件位置
确定Walden.txt文件位置
例如:
将Walden.txt与py代码文件放至同一文件夹
二·逐步前进
1. 打开文件
f=open('Walden.txt','r',encoding='utf-8')
因为直接放在同一文件夹,文件路径为Walden.txt。若非同一文件夹,可以右键Walden.txt选择属性:
如上图,放在桌面上的Walden.txt文件的属性显示位置为C:\Users\iHU\Desktop
'r’为读文本,从Walden.txt文件中提取文本数据;
而encoding='utf-8’则是转化文本数据格式,以utf-8格式输出
可以加一句print(f.read())
观察到
若不加encoding=‘utf-8’
则会显示编码错误(illegal multibyte sequence )
2. 使用函数更改文本,便于计数
首先import re
把大写字母转为小写line=line.lower()
将各种符号转化为空格line=re.sub('[,.?;:"\'!]','',line)
即
3.将结果放入列表words,用空格分隔单词
words=line.split()
4.设置counter函数
from collections import Counter
def counter(words):return Counter(words).most_common(10000)
记录列表words中出现的单词词频,并按大到小的顺序输出(most_common(10000)中的10000是输出元素数范围)
5.放入字典
dict={}
dict=counter(words)
print(dict)
利用字典性质,去重复元素
三·最终效果
import re
f=open('Walden.txt','r',encoding='utf-8')
line=f.read()
line=line.lower()
line=re.sub('[,.?;:"\'!]','',line)
words=line.split()
from collections import Counter
def counter(words):return Counter(words).most_common(10000)
dict={}
dict=counter(words)
print(dict)
执行
【作业】python——小说Walden的词频统计,并从高到低排序相关推荐
- Walden单词统计并从高到低排序
import collections # 调用collections a=open("Walden.txt","r").read() # 以只读方式打开并读取瓦 ...
- Python实例分析——文本词频统计
基于中国大学mooc网嵩天老师的<Python语言程序设计>课程实例 文章目录 一.数字文本 pi 二.英文文本 *Hamlet* 三.中文文本<三国演义> 一.数字文本 pi ...
- 北京交通大学Python课程设计大作业(四)——典籍词频统计
北京交通大学Python课程设计大作业(四)--典籍词频统计 文章目录 北京交通大学Python课程设计大作业(四)--典籍词频统计 一.词频统计任务介绍 二.典籍词频统计python源代码如下 三. ...
- Python中文分词及词频统计
Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...
- 使用Python+NLTK实现英文单词词频统计
使用Python+NLTK实现英文单词词频统计 使用PythonNLTK实现英文单词词频统计 应用场景 Fork Me 参考运行环境 流程步骤图 详细步骤 读取文件 过滤特殊符号以及还原常见缩写单词 ...
- 使用python进行字频统计和词频统计
问题描述 读取给定的语料库,根据制表符'\t'划分其文本与标签,将获得的文本仅保留汉字部分,并按字划分,保存在列表中,至少使用一种方法,统计所有汉字的出现次数,并按照从高到低的顺序排序:至少使用一种方 ...
- python红楼梦人物词频统计_用 Python 分析《红楼梦》
1 前言 两个月以来,我通过互联网自学了一些文本处理的知识,用自然语言处理和机器学习算法对<红楼梦>进行了一些分析.这个过程中我找到了一些有趣的发现,所以我想写一篇文章,既㲌与大家分享和讨 ...
- Python字典简单实现词频统计
目录 问题引入: 原理: 基本流程: 词频统计 ①录入待统计的句子 ②分割为多个单词 ③创建字典 利用Python内置库快速实现词频统计 全部代码 普通方法 方法二:get()实现 内置库实现 Pyt ...
- python红楼梦人物词频统计_通过数据挖掘能分析《红楼梦》各回的真伪吗?
可以的.小智最近就尝试通过用机器学习的方法,分析了一下红楼梦后四十回的真伪. 以下内容引自小智的微信公众号,转载需申请授权. ------------------------------------- ...
最新文章
- Linux socket TIME_WAIT 优化
- Data Protection Manager 2010 系列之安装部署
- 算法改进有多快?是否比迭代硬件收益更大?这是MIT的结论
- 《全栈营销之如何制作个人博客》之二:php环境安装及个人博客后台搭建 让你的博客跑起来...
- C# 遍历List 并删除某个元素
- visual studio 2017发布dotnet core到docker
- linux 内核 发送数据类型,Linux内核数据类型及跨平台
- 域名系统(DNS)概述
- Linux chapter 5
- 后疫情时代这家在线教育机构如何乘“云”而上
- 解决servlet中post请求和get请求中文乱码现象
- Hyper-V虚拟机设置固定IP
- HTML汇率转换代码,利用JS实现汇率转换工具
- 【情感分析:挖掘观点、情感和情绪】读书笔记-02
- CF1320E Treeland and Viruses
- [JSP]错误信息、错误处理
- 高德地图自定义定位按钮后搜索周边
- python爬取微信好友头像_使用python itchat包爬取微信好友头像形成矩形头像集的方法...
- 迎新春,送关怀,送温暖|云畅科技走访慰问三湘社区
- Mac电脑使用:Mac电脑如何用自带的Safari浏览器,一键翻译英文网页为中文网页