python输出出现频率最高的字母_用Python实现搜索某一网页中出现频率最高的前N个英文单词 输入: 网址,N值 输出:按出现频率由高到低排...
满意答案
好象是有一个jieba分词。国人写的,有一个小男孩的头像。挺简单,好玩。
它里有topN的算法。我把代码复制过来。你看一下。最关键的就一句话。
import sys
sys.path.append('../')
import jieba
import jieba.analyse
from optparse import OptionParser
USAGE ="usage: python extract_tags.py [file name] -k [top k]"
parser = OptionParser(USAGE)
parser.add_option("-k",dest="topK")
opt, args = parser.parse_args()
if len(args) <1:
print USAGE
#sys.exit(1)
file_name = args[0]
if opt.topK==None:
topK=10
else:
topK = int(opt.topK)
print file_name
content = open(file_name,'rb').read()
tags = jieba.analyse.extract_tags(content,topK=topK) #这一句
print ",".join(tags)
如果是英文单词就更简单了。可能几句话。我试一下看
s=open("some.txt").read()
import re
words=re.findall("(?isu)(\S+)",s)
counts={}
for w in words:
try:
counts[w]+=1
except KeyError:
counts[w]=1
items=count.items()
items.sort(key=lambda x:x[1],reverse=True)
for k,v in items:
print k,v
这样应该就可以了。
00分享举报
python输出出现频率最高的字母_用Python实现搜索某一网页中出现频率最高的前N个英文单词 输入: 网址,N值 输出:按出现频率由高到低排...相关推荐
- python判断是否是英文字母_用python如何判断字符串是纯英文
用python如何判断字符串是纯英文 发布时间:2020-11-11 09:31:24 来源:亿速云 阅读:97 作者:小新 这篇文章主要介绍用python如何判断字符串是纯英文,文中介绍的非常详细, ...
- Python---将一字符串转换为字典,并按词语出现的频率由高到低进行排列。
题目: 将一字符串转换为字典,并按词语出现的频率由高到低进行排列 . 源代码如下: import re x = input('请输入:') #将输入内容转换为字符串类型 x_str1 = str(x) ...
- C语言学习之有一个函数: y= x(x<1) 2x-1 (1≤x<10) 3x-11 (x≥10) 写程序,输入x的值,输出y相应的值。
有一个函数: 写程序,输入x的值,输出y相应的值. # include <stdio.h> # include <math.h> int main() {int x,y;pri ...
- python随机生成英文字母_在Python中生成随机字母
有没有一种方法可以在Python中生成随机字母(如random.randint,但用于字母)? random.randint的范围功能会很好,但是拥有仅输出随机字母的生成器总比没有好. 简单: > ...
- python 将单词分割成字母_拆分两个字母创建单词python 3
我正在尝试编写一个代码,它将最终解码以下格式的文件中的单词:first letter, last letter rest of word 然后代码将获取这些单词并与单词表交叉检查,以确定哪些单词不是实 ...
- python红楼梦人物词频统计_用 Python 分析《红楼梦》
1 前言 两个月以来,我通过互联网自学了一些文本处理的知识,用自然语言处理和机器学习算法对<红楼梦>进行了一些分析.这个过程中我找到了一些有趣的发现,所以我想写一篇文章,既㲌与大家分享和讨 ...
- python爬虫面试问题及答案_关于Python爬虫面试50道题
语言特性 1.谈谈对 Python 和其他语言的区别 答:Python属于比较"自由"的语言,首先变量使用前不需要声明类型,其次语句结束不需要使用分号作为结尾,同时不需要大括号进行 ...
- python可以用于excel计算吗_你好Python!再见Excel?
现在很多行业,都离不开Excel: 做财务的,要用Excel做报表: 做物流的,会用Excel来跟踪订单情况: 做HR的,会用Excel算工资: 做运营的,会用Excel记录数据做分析. 不知道你有没 ...
- python生僻字如何转码_关于Python下的编码问题?
py2的编码其实是最最贴近实际的编码形式了.反倒是py3,如果遇到个编码标记错误之类的问题,直接让你自杀-- 先说编码是什么:我们知道计算机里存储任何数据都是存储的二进制,但是一串文字若是当图片那样存 ...
最新文章
- web服务器的文档的部分路径是如何工作的,FinderWeb - 文档中心
- 共识算法的比较:Casper vs Tendermint
- python 三引号_Python 字符串
- 在Debian/Ubuntu上面安装升级nginx到最新版
- Yunyang tensorflow-yolov3 voc_train.txt以及voc_test.txt引用的路径位置
- 在研究的道路上到底还能走多远
- C代码中如何调用C++ C++中如何调用C
- NopCommerce 4.2的安装与运行
- unity 删除服务器项目,在吗?有个支持批量构建项目的好东西推荐给你
- 【51nod - 1076】2条不相交的路径(Tarjan无向图判环)
- android wifi设备连接通信,通过wifi与设备进行通信(Android)
- 59. 螺旋矩阵 ||
- python php mysql_Python 操作 MySQL 的正确姿势
- PyCharm 2022 软件安装及汉化
- 基于OMAPL138 + Xilinx spartan6的电力数据采集与传输设计
- 百乐达斯城全新梦幻主题乐园幻乐堡在韩国开业
- gazebo设置_GAZEBO学习笔记(3)
- 『处女作』3 年经验前端第一次跳槽面试总结
- 关于FBG、TFBG、LPG、45°TFBG、EX-45°TFBG
- 查询网站收录的方式?怎样查询网站收录情况?
热门文章
- What happened when we perform Maven Update Project in Eclipse
- 虚拟机Virtualbox中的Ubuntu系统,安装增强功能时报错:未能加载虚拟光驱VBoxsGuestAdditions.iso到虚拟电脑
- python数据统计代码_Python 数据的累加与统计的示例代码
- python onenet_使用Python2.7 POST 数据到 onenet 平台
- linux usb-skeleton,Linux USB驱动程序(2)----usb-skeleton.c分析
- python函数参数的作用是_python函数参数理解
- java全局变量怎么定义_怎么在java中创建一个自定义的collector
- java kmp算法_KMP算法java版实现
- 《计算机网络》第10章在线测试,《计算机网络》第07章在线测试
- windows下写代码在linux下编译,如何在Windows中编译Linux Unix的代码(采用cygwin)?...