统计词频并输出高频词汇
@统计词频并输出高频词汇
所给数据为某日中国日报英文版的一篇新闻报道,现要求使用 Python 语言编写程序统计其中出线频率最高的十个单词,输出对应的单词内容和频率(以字典形式呈现)。
import jieba
import os
file =open("./dataset/englishgraph.txt","r",encoding="utf-8",)
txt = file.read()
words = jieba.lcut(txt)
counts = {}for word in words:if len(word)>=2:counts[word] = counts.get(word,0) + 1list = list(counts.items())
list.sort(key=lambda x:x[1],reverse=True)
print(list)
输出结果
[('you', 14), ('to', 10), ('want', 5), ('have', 5), ('the', 5), ('enough', 4), ('make', 4), ('of', 4), ('those', 4), ('who', 4), ('that', 3), ('and', 3), ('for', 3), ('in', 2), ('life', 2), ('just', 2), ('them', 2), ('what', 2), ('go', 2), ('be', 2), ('only', 2), ('one', 2), ('do', 2), ('it', 2), ('hurts', 2), ('people', 2), ('everything', 2), ('they', 2), ('There', 1), ('are', 1), ('moments', 1), ('when', 1), ('miss', 1), ('someone', 1), ('so', 1), ('much', 1), ('pick', 1), ('from', 1), ('your', 1), ('dreams', 1), ('hug', 1), ('real', 1), ('Dream', 1), ('dream', 1), ('where', 1), ('because', 1), ('chance', 1), ('all', 1), ('things', 1), ('May', 1), ('happiness', 1), ('sweet', 1), ('trials', 1), ('strong', 1), ('sorrow', 1), ('keep', 1), ('human', 1), ('hope', 1), ('happy', 1), ('Always', 1), ('put', 1), ('yourself', 1), ('others', 1), ('shoes', 1), ('If', 1), ('feel', 1), ('probably', 1), ('other', 1), ('person', 1), ('too', 1), ('The', 1), ('happiest', 1), ('don', 1), ('necessarily', 1), ('best', 1), ('most', 1), ('comes', 1), ('along', 1), ('their', 1), ('way', 1), ('Happiness', 1), ('lies', 1), ('cry', 1), ('hurt', 1), ('searched', 1), ('tried', 1), ('can', 1), ('appreciate', 1), ('importance', 1)]Process finished with exit code 0
统计词频并输出高频词汇相关推荐
- 用python统计水浒传中的高频词汇
用python统计水浒传中的高频词汇 #词频统计.py import jieba excludes = {"两个","一个","只见",&q ...
- python分词统计词频_python jieba分词并统计词频后输出结果到Excel和txt文档方法
前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率. 让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的. 运行环境: 安装python2.7.13 ...
- python统计文章中的高频词汇_使用Python 统计高频字数的方法
使用Python 统计高频字数的方法 发布时间:2020-09-17 00:52:12 来源:脚本之家 阅读:112 作者:Silent_Summer 问题 (来自Udacity机器学习工程师纳米学位 ...
- 用Java输出高频词_java进行一篇文章的高频词统计
一.需求分析: 给定一篇文档,请对其高频词进行统计,并输出高频词top10. 二.解决思路: 对高频词进行统计,主要是对字符串进行分割,并对其出现的频率进行存储和统计.存储字符串频率可用HashMap ...
- 统计本段话的高频词汇——报错:KeyError
项目场景: 编写程序,实现用户随机输入一段话,统计本段话的高频词汇 原来的代码 import jieba txt = input("请输入一段话:") words = jieba. ...
- python英语词频_【我爱背单词】从300万单词中给你一份3000英语新闻高频词汇
-----------------2017-01-22 20:21---------------- [单词集已经更新] [有知友提醒,使用Windows自带的记事本打开会出现单词为分割开来的情况,晚上 ...
- python英语-我们用程序整理出了一份Python英语高频词汇表,拿走不谢!
原标题:我们用程序整理出了一份Python英语高频词汇表,拿走不谢! 有不少编程初学者会问这样一个问题:我英语不好,还能不能学编程?会不会有影响? 我的回答是:能,会. 能学,是因为虽然编程用的都是英 ...
- python四级_Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么
原标题:Python分析36套四级真题获取词频最高5000个词汇,还怕四级不过么 前言 从历年四级英语真题中获取词频最高的 5000 个词汇 ,并进行翻译 !综合用到了爬虫 .数据分析等知识 ,亲爱的 ...
- 我们用程序整理出了一份Python英语高频词汇表,拿走不谢!
有不少编程初学者会问这样一个问题:我英语不好,还能不能学编程?会不会有影响? 我的回答是:能,会. 能学,是因为虽然编程用的都是英语,但翻来覆去就那么一些关键字,写一阵子就都记住了.中文的学习资料也不 ...
最新文章
- springboot 打包_springboot项目打包上传至阿里云服务器
- CentOS 迎来更新换代版本 CentOS Stream 9 附下载镜像OS地址
- Http Get 和 Post
- 恕我直言,IDEA的Debug,你可能只用了10%
- 她说:行!嫁人就选程序员!
- 矩形分割(洛谷P1324题题解,Java语言描述)
- 2019年JavaScript状态调查中的新增功能
- 《css设计彻底研究》读书笔记之 float 浮动原理
- POP Animation 和 layoutSubviews 的冲突
- static library libs/libvpx/libvpx.a is not portable!
- gcc的ar,nm,objdump,objcopy
- window下环境变量立即生效
- pyhive 安装sasl
- html按钮调用php函数,如何在html按钮上执行php函数点击
- STM32CubeMX工程提示未定义变量LL_APB1_GRP1_PERIPH_BKP
- 世界互联网大会马云演讲实录
- 【BZOJ】【P1406】【AHOI2007】【密码箱】【题解】【数论】
- 中国石油大学远程教育《大学英语(四)》第二阶段在线作业
- 毕业十年,唯有独立面对——记 贺利坚老师新书《逆袭大学——传给IT学子的正能量》
- 金融统计分析python论文_比较好写的本科金融专业论文题目 本科金融专业论文题目怎么取...