Python-英文小说词频统计
import operator
import re# 1) 统计出文本中的单词的词频,找出词频最高和最低的单词及其词频,并输出。# 这个是结果
result = {}# 主函数入口
if __name__ == "__main__":try:f = open(r"文本解析器.txt", "r", encoding="UTF-8")# 避免单词因为大小进行区分content = f.read().lower()# 找出所有单词words = re.findall('[a-z]+', content)# 利用字典特性进行统计for word in words:if word not in result:result[word] = 1else:result[word] += 1# 利用sort函数进行排序result = sorted(result.items(), key=operator.itemgetter(1), reverse=True)# 打印结果print(result)except BaseException as e:print(e)finally:f.close()
下面是python 中 正则表达的re 模块
compile(pattern, flags = 0) 匹配任何可选的标记来编译正则表达式的模式,然后返回一个正则表达式对象
match(pattern, string, flags = 0) 使用带有可选标记的正则表达式的模式来匹配字符串。如果匹配成功,返回匹配对象,否则返回None
search(pattern, string ,flags = 0) 使用可选标记搜索字符串中第一次出现的正则表达式模式。如果匹配成功,则返回匹配对象,否则返回None
findall(pattern, string[,flags] ) 查找字符串中所有(非重复)出现的正则表达式模式,并返回一个匹配列表
finditer(pattern, string[,flags] ) 与findall()相同,但返回的是一个迭代器。对于每一次匹配,迭代器都能返回一个匹配对象
split(pattern, string, max = 0) 根据正则表达式的模式分隔符,split函数将字符串分割为列表,返回匹配列表,分割最多操作max次
group(num = 0) 返回整个匹配对象,或者编号为num的特定子组
例子:
import re
m = re.search('foo','asdasdfooasd')
#这里如果使用match将匹配不到任何字符串,因为match从第一个a开始匹配
if m is not None:print(m.group())
regex = <(.*)>(.*)<\/(.*)>|<(.*)\/>
m = re.search(regex,"aa<a>aaaa</a>")
#一样只有search能匹配到标签
if m is not None:print(m.group())
Python-英文小说词频统计相关推荐
- python英文文本词频统计_python编程:英文小说词频统计
一.编程目的: 1.英文小说(The Myths )分词,并进行词频统计 2.绘制词频统计直方图 3.为小说情感分析做准备 二.编程环境: 1.pyhon3+pycharm 2.需安装模块:strin ...
- python英文文本词频统计_Python英文文章词频统计(14份剑桥真题词频统计)
Python剑桥真题词频统计 最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如 ...
- python英文文本词频统计代码_Python小程序:文本词频统计(英文+中文)
在学习了组合数据类型和文件操作之后就可以做出下面的文本词频统计的小程序了: 1. 下面是英文文本的词频统计,统计了作者的一篇英文论文 #文本词频统计:英文文本 def gettext(): #从文件中 ...
- python英文文本词频统计_python实现简单的英文词频统计
1 __author__ = 'Oscar_Yang' 2 #-*- coding= utf-8 -*- 3 #copyRight by OSCAR 4 """ 5 本脚 ...
- 【词频统计】--用python的jieba进行英文文本词频统计
目录 1.基本思路:统计哈利波特小说中词频最高的前20个,去掉一些停用词(如is) 2.停用词(截取部分) 3.代码如下 4.小知识:元组可以用来这样赋值 1.基本思路:统计哈利波特小说中词频最高的前 ...
- 浅析如何用Python进行中英文词频统计
浅析如何用Python进行中英文词频统计 主要思路: 读取数据 数据预处理 分词 词频统计 结果显示 词频统计 TF-IDF(term frequency–inverse document frequ ...
- python红楼梦词频统计
python红楼梦词频统计 <红楼梦>人物的出场统计涉及对词汇的统计,中文文章的需要分词才能进行词频统计,需要用到jieba库. 分析过程: 代码: import jieba txt=op ...
- JAVA小练习之英文文本词频统计(三)
写在开头:本次的小练习主要会运用一些字典的排序,由于对JAVA不是很熟悉,所以有的地方会不太能够解读,搜索了部分网上的资料. 英文文本词频统计 任务目标:统计英文文本中出现频率最高的5个单词,需要处理 ...
- python英文词频统计代码_python实现中文和英文的词频统计功能方法汇总
python的思维就是让我们用尽可能少的代码来解决问题.对于词频的统计,就代码层面而言,实现的方式也是有很多种的.之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类 ...
- python 小说词频统计_Python中文分词及词频统计
中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...
最新文章
- 计算机科学与技术专业认证研讨,信息学院召开计算机科学与技术专业IEET认证暨人才培养方案修订研讨会...
- Seaborn在图像内自定义图例(legend)位置实战
- 用开满鲜花的情怀对待每一份求知欲
- linux useradd命令使用示例
- ssms2008 代码自动提示_使用 SSMS 的提示和技巧 - SQL Server Management Studio (SSMS) | Microsoft Docs...
- (十)深入浅出TCPIP之网络阻塞和非阻塞
- asp.net本质论——HttpModule
- springmvc往html设置变量,SpringMVC:@MatrixVariable矩阵变量
- Android Studio中导入第三方库
- 防御SQL注入的方法总结
- 有量纲和无量纲是什么意思_为什么无线通信需要同步?
- espeak 开源离线语音合成工具
- Linux命令:常用进程查看命令
- Android启动优化--异步优化
- 佳能2900打印机与win10不兼容_Win10系统如何解决佳能打印机打印问题?
- python打印日历_python 打印日历
- 高通与NVIDIA在物联网芯片交锋,争相引入AI
- 计算机组成原理(8)CPU——基本结构
- 如何使用 Python 检测和识别车牌(附 Python 代码)
- HTML+CSS+JS实现轮播效果
热门文章
- 从前端到后台,开发一个完整功能的小程序
- android 几个快速编译images指令
- Centos修改yum源为阿里源
- Webrtc之源码结构
- jsonrpc php使用,php实现的一个简单jsonrpc框架实例
- mysql+last_query_cost_辛星简译MySQL中的last_query_cost
- css列名不动_利用js+css+html实现固定table的列头不动
- j循环赋予li id_《Science》子刊:超强Li-S电池诞生!硫负载量高达15mg·cm-2
- c语言中数组的变量j是什么,c语言中数组,一般数组
- python常用小技巧_Python 实用技巧