python统计单词个数算法_统计一篇英文文章单词个数,取出出现频次前10的单词(Python实现)...
题目: 用python实现统计一篇英文文章内每个单词的出现频率,并返回出现频率最高的前10个单词及其出现次数。
常规解法
怎么判定单词?
1 不是字母的特殊字符作为分隔符分割字符串 (避免特殊字符的处理不便,全部替换成””)
2 正则分割
3 遍历字符串,取每个word
4 正则匹配
怎么统计个数?
将wordlist的word和word的个数放入dict,排序
import re
with open('1.txt', 'r') as f:
word_dict = {} # 用于统计 word:个数
word_list = [] # 用于存放所有单词
for line in fd.readlines():
for word in line.strip().split(" "):
word_list.append(re.sub(r"[^a-z]+", "", word.lower()))
word_sets = list(set(word_list)) # 确保唯一
word_dict = {word: word_list.count(word) for word in word_sets if word}
result = sorted(word_dict.items(), key=lambda d: d[1], reverse=True)[:10]
print(result)
利用collections模块
import re
from collections import Counter
with open('1.txt', 'r', ) as f:
words = f.read() # 将文件的内容全部读取成一个字符串
count = Counter(re.split(r"\W+", words)) # 以单词为分隔
result = count.most_common(10) # 统计最常使用的前10个
print(result)
python统计单词个数算法_统计一篇英文文章单词个数,取出出现频次前10的单词(Python实现)...相关推荐
- split函数python统计英文单词_统计一篇英文文章单词个数,取出出现频次前10的单词(Python实现)...
题目: 用python实现统计一篇英文文章内每个单词的出现频率,并返回出现频率最高的前10个单词及其出现次数. 常规解法 怎么判定单词? 1 不是字母的特殊字符作为分隔符分割字符串 (避免特殊字符的处 ...
- 统计一篇英文文章单词个数
代码实现 import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException;/** ...
- Java—统计一篇英文文章中出现的不重复单词的个数
题目: 输入一篇英文文章,碰到"!!!"的时候停止,输出文章中出现的不重复单词的个数(注意:单词不区分大小写,如:The和the为一个单词) 输入格式: 一篇英文文章,以" ...
- 统计一篇英文文章中出现次数最多的10个单词
https://blog.csdn.net/u010512607/article/details/40005641 思路: 1.读入文件,按行将文字拼接成字符串str 2.用正则过滤字符串中的标点,再 ...
- 统计一篇英文文章中单词出现的频数
1.题目内容:如何统计一篇英文文章中单词出现的频数,依次从键盘中输入该文章. 2.思路:使用map一一映射 3.程序清单: #include<iostream> #include<s ...
- 统计一篇英文文章中出现的 单词 和 词频
统计一篇英文文章中出现的单词和词频, 统计一篇英文文章中出现的单词和词频. 输入:某篇文章的绝对路径 输出:词典(词典中的内容为每一行都是一个"词频 单词 ") #include ...
- 统计一篇英文文章中26 字母出现的概率
统计一篇英文文章中26 字母出现的概率 //统计英文文章中26 字母出现的概率 #include <stdio.h> void main() { float number[26]={0}; ...
- 一篇英文文档中找出频数最多的10个单词
"""一篇英文文档中找出频数最多的10个单词collections: Counter 提供计数器工具以支持方便和快速的计数 most_common(n) 返回n个最常见元 ...
- php有几个单词,PHP-如何选择一个句子的前10个单词?
PHP-如何选择一个句子的前10个单词? 我如何从输出中仅选择前10个字? AAA asked 2020-02-15T07:42:50Z 13个解决方案 126 votes implode(' ', ...
最新文章
- Python 连接FTP服务器并实现文件夹下载实例演示,python区分ftp目录下文件和文件夹方法,ftp目录下包含中文名问题处理
- [转]Fiddler模拟post四种请求数据
- docker显示镜像的摘要信息
- 容器viewController添加或者删除子viewController
- 动态库在不同操作系统中的不同意义
- 关于LUA+Unity开发_XLua篇
- Opencv step by step - 图像变换
- 添加C1WPFChart快捷键
- r语言保存成html文件,R语言统计结果输出至本地文件的几种方法示例
- 计算机组成原理:扩展操作码技术
- 通过倍福Twincat的R3IO添加外部C++程序
- PS修改图片上的文字
- 产品研发中存在的问题和缺陷
- python 爬取淘宝视频_识别假货有绝招,先用python抓淘宝评论(附视频教程)
- 离开谷歌回归斯坦福,“AI女神”李飞飞新动向揭晓
- 炼数成金《数据分析与SAS》课程
- Dedecms QQ一键登录插件
- 深入了解快排 以及 优化
- 宣传折页设计三折页宣传册(案例分享)(版权归redtrans所有,请勿私用)
- 顺丰和百度外卖绯闻内幕披露
热门文章
- ABAPGit的安装方式
- 在SAP Data Intelligence Modeler里测试data Generator graph
- SAP CRM webclient ui help link超链接的生成逻辑
- Cluster table import - BSP UI component source code is actually stored in cluster table
- 如何使用SAP事务码SAT进行UI应用的性能分析
- 使用SAP WebIDE给SAP UI5应用添加data source
- OPA Quality Report in Jenkins Ben - 到哪里能看到我们的OPA Test在Jenkins Server上运行的情况
- Marketing Cloud里CSRF token的获取时机
- COMMIT WORK关键字在CRM content management应用里的使用场景
- How to use price determination in Quotation scenario