python高频词汇表大全_利用python统计word文档高频词汇
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import jieba
import jieba.analyse
import codecs
import re
from collections import Counter
class WordCounter(object):
def count_from_file(self, file, top_limit=0):
with codecs.open(file, ‘r’, ‘utf-8′) as f:
content = f.read()
content = re.sub(r’\s+’, r’ ‘, content)
content = re.sub(r’\.+’, r’ ‘, content)
return self.count_from_str(content, top_limit=top_limit)
def count_from_str(self, content, top_limit=0):
if top_limit <= 0:
top_limit = 100
tags = jieba.analyse.extract_tags(content, topK=100)
words = jieba.cut(content,cut_all=True) #自行设置jieba的模式
counter = Counter()
for word in words:
if word in tags:
counter[word] += 1
return counter.most_common(top_limit)
if __name__ == ‘__main__’:
counter = WordCounter()
result = counter.count_from_file(r’bj.txt’, top_limit=20) #文件名bj.txt,选取前20高频词
for k, v in result:
print (k, v)
python高频词汇表大全_利用python统计word文档高频词汇相关推荐
- python word排版_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体等
前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...
- python word中表格字体设置_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体样式等...
前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...
- python读取word中的文字格式_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体等...
前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...
- poi处理word内容的公式_利用poi操作word文档
关键字:POI JAVA 批注 总页数 总字符数 一:认识POI Apache POI是一个开源的利用Java读写Excel.WORD等微软OLE2组件文档的项目.最新的3.5版本有很多改进,加入了对 ...
- matlab 生成 word 表格,利用MATLAB生成Word文档.doc
利用MATLAB生成Word文档 function ceshi_Word %利用MATLAB生成Word文档 % ceshi_Word % % Copyright 2009 - 2010 xiezhh ...
- java利用POI替换word文档中的标签
java利用POI替换word文档中的标签 <dependency><groupId>org.apache.poi</groupId><artifactId& ...
- 利用VBA实现word文档手写体打印
利用VBA实现word文档手写体打印 一.缘起 二.实现 1.下载手写字体 2.导入书写字体 3.效果展示 4.利用VBA优化 5.优化后效果 三.附件 1.A4纸打印效果 2.信纸打印效果 3.完整 ...
- matlab2015 word,利用MATLAB生成Word文档
<利用MATLAB生成Word文档>由会员分享,可在线阅读,更多相关<利用MATLAB生成Word文档(5页珍藏版)>请在人人文库网上搜索. 1.function ceshi_ ...
- 利用OpenOffice实现word文档在线预览
项目中遇到的word文档在线预览需求,查阅很多资料决定利用openoffice转换word文档为pdf/html进行预览实现. 1.下载openoffice4安装 www.openoffice.org ...
- 编辑器未包含main类型_利用 ONLYOFFICE 将在线文档编辑器集成到 Python Web 应用程序中...
通过 API,开发人员可以将 ONLYOFFICE 编辑器集成到网站和利用程序设计语言编写的应用程序中,并能配置和管理编辑器. 来源:https://linux.cn/article-13037-1. ...
最新文章
- ASP.NET中相对路径的使用总结
- 【Google Play】IARC 年龄分级 ( IARC 国际年龄分级联盟 | Google Play 设置应用年龄分级 )
- 速看,三分钟带你了解IP协议!
- WannaCry勒索软件还在继续传播和感染中
- 托马斯反驳牛顿被骂,普朗克颜值过高遭上帝捉弄,狄拉克却因爱情成话痨
- .net core @Html 自定义属性中包含特殊符号解决
- 在vscode中打开PDF文件
- 分段点处导数怎么求,导数和导函数的极限有关系吗?
- 2110449-02-8,2110449-02-8巯基反应性PEG
- 5G 时代,AI 如何破竹而出? | AI ProCon
- React Hooks 分享
- Color类 设置字体颜色、背景颜色
- 申请圣文森特牌照申请流程
- HTML英雄联盟 效果图代码结构 (多多指教,感谢)
- 印象笔记好还是有道云笔记好_有道云笔记和印象笔记哪个好?
- 点对点OSPF路由器配置
- 预装Win 8.1 Pro环境下安装Win 7双系统
- 平衡企业管理与协作Worktile让工作更简单
- androidx依赖aar报错
- HIVE/SQL 实现同一列数据累加和累乘
热门文章
- python实现离散沃尔什变换_【图像处理】沃尔什变换与 python 实现
- C/S模型(客户/服务器模型)
- 什么是梯度,梯度有什么用
- R语言实现行为特征分析(Behavioral Profile,BP)+层次聚类分析(hierarchical agglomerative cluster analysis,HAC)
- xinput1_3.dll丢失怎么修复win10_有什么好的修复方法推荐?
- [Perl] Data::Dumper模块的用法简介
- Node.js简介及安装
- 25 岁的 Linux 已经无处不在,它是如何毁了微软统治世界的计划?
- 网站横幅切换jquery 插件
- Vulnhub Typhoon-v1.02提权