浅析如何用Python进行中英文词频统计

主要思路：

读取数据
数据预处理
分词
词频统计
结果显示

词频统计

TF-IDF（term frequency–inverse document frequency）词频–反转文件频率，是一种用于情报检索与文本挖掘的常用加权技术，用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。 —— [ 百度百科 ]

词频统计实例

英文词频统计
Hamlet
中文词频统计
三国演义

代码块

#CalHamletV1.pydef getText():txt=open("Hamlet.txt","r").read()#读取数据txt=txt.lower()#数据清洗for ch in ["~!@#$%^&*()_+{}|[]\:;'<>?,./"]:txt=txt.replace(ch," ")#分词return txt
Hamlet=getText()
words=Hamlet.split()#切片
counts{}#词频统计
for word in words:counts[word]=counts.get(word,0)+1
items=list(counts.items())#结果显示
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):word,count=items[i]print("{0:<10}{1:>5}".format(word,count))#CalThreekingdomsV1.py
import jieba#导入jieba中文分词包
txt=open("Threekingdoms.txt","r",encoding="utf-8").read()#读取数据
words=jieba.lcut(txt)#分词
counts={}#词频统计
for word in words:if len(word)==1:continueelse:counts[word]=counts.get(word,0)+1
items=list(counts.items()) #结果显示
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):word,count=items[i]print("{0:<10}{1:>5}".format(word,count))

##运行结果（截图）

浅析如何用Python进行中英文词频统计相关推荐

Python文本文件中英文词频统计
第1关:词频统计任务描述本关任务: 编程实现英文词频统计: (1)从键盘输入文件名 (2)读取文件中内容 (3)统计文件中英文单词的个数 (4)降序输出单词及个数假设文本内容如图: , 编程要求 ...
python红楼梦词频统计
python红楼梦词频统计 <红楼梦>人物的出场统计涉及对词汇的统计,中文文章的需要分词才能进行词频统计,需要用到jieba库. 分析过程: 代码: import jieba txt=op ...
Python 中英文词频统计(字典类型 jieba库应用)
def Get_Text():txt=open("hamlet.txt","r").read()txt=txt.lower()#将全文变为小写for ch in ...
Python实例--文本词频统计
最近在MOOC跟着北京理工大学的嵩天老师学习Python(https://www.icourse163.org/learn/BIT-268001?tid=1003243006#/learn/annou ...
python分词和词频统计
Python大数据:jieba分词,词频统计黑冰中国关注 0.1 2018.03.21 11:39* 字数 1717 阅读 7553评论 6喜欢 45赞赏 1 实验目的学习如何读取一个文件学 ...
python红楼梦词频统计_用 Python 分析《红楼梦》（2）-阿里云开发者社区
6 词频统计完成分词以后,词频统计就非常简单了.我们只需要根据分词结果把片段切分开,去掉长度为一的片段(也就是单字),然后数一下每一种片段的个数就可以了. 这是出现次数排名前 20 的单词: (括号 ...
Python案例：词频统计
一.提出任务统计文本文件里单词出现次数 - 词频,绘制词频折线图,按词频降序排列. 二.完成任务 1.创建文本文件test.txt 2.创建Python程序 - 词频统计.py # -*- codi ...
Python如何进行词频统计？3种方法教给你
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于快学Python ,作者小小明 Python爬虫.数据分析.网站开发等案例教程 ...
python红楼梦词频统计_Python 红楼梦的字频与词频统计
Python 红楼梦的字频与词频统计使用jieba分词工具分词,在网上下载了一个停用词表(包括标点符号)去除停用词. 使用wordcloud生成词云. 其实除了停用词,程度词与否定词等也应该去除,但 ...

浅析如何用Python进行中英文词频统计

浅析如何用Python进行中英文词频统计

词频统计

词频统计实例

代码块

浅析如何用Python进行中英文词频统计相关推荐

最新文章

热门文章