Python-英文小说词频统计

2024-04-30 00:39:18

import operator
import re# 1) 统计出文本中的单词的词频，找出词频最高和最低的单词及其词频，并输出。# 这个是结果
result = {}# 主函数入口
if __name__ == "__main__":try:f = open(r"文本解析器.txt", "r", encoding="UTF-8")# 避免单词因为大小进行区分content = f.read().lower()# 找出所有单词words = re.findall('[a-z]+', content)# 利用字典特性进行统计for word in words:if word not in result:result[word] = 1else:result[word] += 1# 利用sort函数进行排序result = sorted(result.items(), key=operator.itemgetter(1), reverse=True)# 打印结果print(result)except BaseException as e:print(e)finally:f.close()

下面是python 中正则表达的re 模块

compile(pattern, flags = 0) 　　　　　　匹配任何可选的标记来编译正则表达式的模式，然后返回一个正则表达式对象
match(pattern, string, flags = 0)　　　　使用带有可选标记的正则表达式的模式来匹配字符串。如果匹配成功，返回匹配对象，否则返回None
search(pattern, string ,flags = 0) 　　　　使用可选标记搜索字符串中第一次出现的正则表达式模式。如果匹配成功，则返回匹配对象，否则返回None
findall(pattern, string[,flags] ) 　　　　    查找字符串中所有(非重复)出现的正则表达式模式，并返回一个匹配列表
finditer(pattern, string[,flags] ) 　　　　   与findall()相同，但返回的是一个迭代器。对于每一次匹配，迭代器都能返回一个匹配对象
split(pattern, string, max = 0) 　　　　根据正则表达式的模式分隔符，split函数将字符串分割为列表，返回匹配列表，分割最多操作max次
group(num = 0) 　　　　　　　　  　　返回整个匹配对象，或者编号为num的特定子组

例子:

import re
m = re.search('foo','asdasdfooasd')
#这里如果使用match将匹配不到任何字符串，因为match从第一个a开始匹配
if m is not None:print(m.group())

regex = <(.*)>(.*)<\/(.*)>|<(.*)\/>
m = re.search(regex,"aa<a>aaaa</a>")
#一样只有search能匹配到标签
if m is not None:print(m.group())

Python-英文小说词频统计相关推荐

python英文文本词频统计_python编程：英文小说词频统计
一.编程目的: 1.英文小说(The Myths )分词,并进行词频统计 2.绘制词频统计直方图 3.为小说情感分析做准备二.编程环境: 1.pyhon3+pycharm 2.需安装模块:strin ...
python英文文本词频统计_Python英文文章词频统计(14份剑桥真题词频统计)
Python剑桥真题词频统计最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如 ...
python英文文本词频统计代码_Python小程序：文本词频统计（英文+中文）
在学习了组合数据类型和文件操作之后就可以做出下面的文本词频统计的小程序了: 1. 下面是英文文本的词频统计,统计了作者的一篇英文论文 #文本词频统计:英文文本 def gettext(): #从文件中 ...
python英文文本词频统计_python实现简单的英文词频统计
1 __author__ = 'Oscar_Yang' 2 #-*- coding= utf-8 -*- 3 #copyRight by OSCAR 4 """ 5 本脚 ...
【词频统计】--用python的jieba进行英文文本词频统计
目录 1.基本思路:统计哈利波特小说中词频最高的前20个,去掉一些停用词(如is) 2.停用词(截取部分) 3.代码如下 4.小知识:元组可以用来这样赋值 1.基本思路:统计哈利波特小说中词频最高的前 ...
浅析如何用Python进行中英文词频统计
浅析如何用Python进行中英文词频统计主要思路: 读取数据数据预处理分词词频统计结果显示词频统计 TF-IDF(term frequency–inverse document frequ ...
python红楼梦词频统计
python红楼梦词频统计 <红楼梦>人物的出场统计涉及对词汇的统计,中文文章的需要分词才能进行词频统计,需要用到jieba库. 分析过程: 代码: import jieba txt=op ...
JAVA小练习之英文文本词频统计（三）
写在开头:本次的小练习主要会运用一些字典的排序,由于对JAVA不是很熟悉,所以有的地方会不太能够解读,搜索了部分网上的资料. 英文文本词频统计任务目标:统计英文文本中出现频率最高的5个单词,需要处理 ...
python英文词频统计代码_python实现中文和英文的词频统计功能方法汇总
python的思维就是让我们用尽可能少的代码来解决问题.对于词频的统计,就代码层面而言,实现的方式也是有很多种的.之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类 ...
python 小说词频统计_Python中文分词及词频统计
中文分词中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文 ...

最新文章

热门文章