浅析如何用Python进行中英文词频统计

主要思路:

  • 读取数据
  • 数据预处理
  • 分词
  • 词频统计
  • 结果显示

词频统计

TF-IDF(term frequency–inverse document frequency)词频–反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。 —— [ 百度百科 ]

词频统计实例

英文词频统计
Hamlet
中文词频统计
三国演义

代码块

#CalHamletV1.pydef getText():txt=open("Hamlet.txt","r").read()#读取数据txt=txt.lower()#数据清洗for ch in ["~!@#$%^&*()_+{}|[]\:;'<>?,./"]:txt=txt.replace(ch," ")#分词return txt
Hamlet=getText()
words=Hamlet.split()#切片
counts{}#词频统计
for word in words:counts[word]=counts.get(word,0)+1
items=list(counts.items())#结果显示
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):word,count=items[i]print("{0:<10}{1:>5}".format(word,count))#CalThreekingdomsV1.py
import jieba#导入jieba中文分词包
txt=open("Threekingdoms.txt","r",encoding="utf-8").read()#读取数据
words=jieba.lcut(txt)#分词
counts={}#词频统计
for word in words:if len(word)==1:continueelse:counts[word]=counts.get(word,0)+1
items=list(counts.items()) #结果显示
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):word,count=items[i]print("{0:<10}{1:>5}".format(word,count))

##运行结果(截图)

浅析如何用Python进行中英文词频统计相关推荐

  1. Python文本文件中英文词频统计

    第1关:词频统计 任务描述 本关任务: 编程实现英文词频统计: (1)从键盘输入文件名 (2)读取文件中内容 (3)统计文件中英文单词的个数 (4)降序输出单词及个数 假设文本内容如图: , 编程要求 ...

  2. python红楼梦词频统计

    python红楼梦词频统计 <红楼梦>人物的出场统计涉及对词汇的统计,中文文章的需要分词才能进行词频统计,需要用到jieba库. 分析过程: 代码: import jieba txt=op ...

  3. Python 中英文词频统计(字典类型 jieba库应用)

    def Get_Text():txt=open("hamlet.txt","r").read()txt=txt.lower()#将全文变为小写for ch in ...

  4. Python实例--文本词频统计

    最近在MOOC跟着北京理工大学的嵩天老师学习Python(https://www.icourse163.org/learn/BIT-268001?tid=1003243006#/learn/annou ...

  5. python分词和词频统计

    Python大数据:jieba分词,词频统计  黑冰中国 关注 0.1 2018.03.21 11:39* 字数 1717 阅读 7553评论 6喜欢 45赞赏 1 实验目的 学习如何读取一个文件 学 ...

  6. python红楼梦词频统计_用 Python 分析《红楼梦》(2)-阿里云开发者社区

    6 词频统计 完成分词以后,词频统计就非常简单了.我们只需要根据分词结果把片段切分开,去掉长度为一的片段(也就是单字),然后数一下每一种片段的个数就可以了. 这是出现次数排名前 20 的单词: (括号 ...

  7. Python案例:词频统计

    一.提出任务 统计文本文件里单词出现次数 - 词频,绘制词频折线图,按词频降序排列. 二.完成任务 1.创建文本文件test.txt 2.创建Python程序 - 词频统计.py # -*- codi ...

  8. Python如何进行词频统计?3种方法教给你

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于快学Python ,作者小小明 Python爬虫.数据分析.网站开发等案例教程 ...

  9. python红楼梦词频统计_Python 红楼梦的字频与词频统计

    Python 红楼梦的字频与词频统计 使用jieba分词工具分词,在网上下载了一个停用词表(包括标点符号)去除停用词. 使用wordcloud生成词云. 其实除了停用词,程度词与否定词等也应该去除,但 ...

最新文章

  1. ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动特征生成)
  2. php计算器使用方法,php--计算器的算法实现(-)
  3. python类中的函数_python类中的函数问题
  4. python接口测试_Python接口自动化测试框架实战开发(一)
  5. matlab怎么画一箭穿心,MATLAB学习与使用:如何绘制三维心形图 经验告诉你该这样...
  6. Setting property 'source' to 'org.eclipse.jst.jee.server
  7. python anaconda和pycharm_Python 、Pycharm、Anaconda三者的区别与联系、安装过程及注意事项...
  8. 项目搭建系列之一:使用Maven搭建SpringMVC项目
  9. 集中器到服务器传输协议,集中器130通讯协议(捷先数码).doc
  10. python下载的库包放_python下载的库包存放路径
  11. Linux能运行哪些行业软件,盘点支持Linux的经典Windows软件
  12. 论文笔记:NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction
  13. 关于中国教育的一些思考
  14. 谷歌图形化HTML5网页编辑器Google Web Designer
  15. ChatGPT爆火背后的真相:学编程已经成为必选项
  16. 解决谷歌浏览器启动页面默认是搜狗浏览?
  17. Ik分词器(自定义分词-mysql)
  18. java 7 安装_Java7详细安装使用技巧教程
  19. Linux操作命令(下)
  20. PyTorch线程池泄露Leaking Caffe2 thread-pool after fork

热门文章

  1. shardingJdbc配置
  2. grad can be implicitly created only for scalar outputs
  3. java 读取局域网交换机_局域网技术_交换机的工作方式
  4. 各代iphone尺寸_新款iPhone详细尺寸全面曝光 还有各种对比图
  5. Java 吸血鬼数字
  6. ElasticSearch仿京东搜索实战SpringBoot项目
  7. 天猫双十一成交额突破3723亿元
  8. 【Scala 教程】Scala 集合类型
  9. c语言字符动画的实现
  10. 制作ASCII字符动画