#!/usr/bin/env python

# -*- coding: utf-8 -*-

import jieba

import jieba.analyse

import codecs

import re

from collections import Counter

class WordCounter(object):

def count_from_file(self, file, top_limit=0):

with codecs.open(file, ‘r’, ‘utf-8′) as f:

content = f.read()

content = re.sub(r’\s+’, r’ ‘, content)

content = re.sub(r’\.+’, r’ ‘, content)

return self.count_from_str(content, top_limit=top_limit)

def count_from_str(self, content, top_limit=0):

if top_limit <= 0:

top_limit = 100

tags = jieba.analyse.extract_tags(content, topK=100)

words = jieba.cut(content,cut_all=True)    #自行设置jieba的模式

counter = Counter()

for word in words:

if word in tags:

counter[word] += 1

return counter.most_common(top_limit)

if __name__ == ‘__main__’:

counter = WordCounter()

result = counter.count_from_file(r’bj.txt’, top_limit=20)    #文件名bj.txt,选取前20高频词

for k, v in result:

print (k, v)

python高频词汇表大全_利用python统计word文档高频词汇相关推荐

  1. python word排版_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体等

    前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...

  2. python word中表格字体设置_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体样式等...

    前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...

  3. python读取word中的文字格式_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体等...

    前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...

  4. poi处理word内容的公式_利用poi操作word文档

    关键字:POI JAVA 批注 总页数 总字符数 一:认识POI Apache POI是一个开源的利用Java读写Excel.WORD等微软OLE2组件文档的项目.最新的3.5版本有很多改进,加入了对 ...

  5. matlab 生成 word 表格,利用MATLAB生成Word文档.doc

    利用MATLAB生成Word文档 function ceshi_Word %利用MATLAB生成Word文档 % ceshi_Word % % Copyright 2009 - 2010 xiezhh ...

  6. java利用POI替换word文档中的标签

    java利用POI替换word文档中的标签 <dependency><groupId>org.apache.poi</groupId><artifactId& ...

  7. 利用VBA实现word文档手写体打印

    利用VBA实现word文档手写体打印 一.缘起 二.实现 1.下载手写字体 2.导入书写字体 3.效果展示 4.利用VBA优化 5.优化后效果 三.附件 1.A4纸打印效果 2.信纸打印效果 3.完整 ...

  8. matlab2015 word,利用MATLAB生成Word文档

    <利用MATLAB生成Word文档>由会员分享,可在线阅读,更多相关<利用MATLAB生成Word文档(5页珍藏版)>请在人人文库网上搜索. 1.function ceshi_ ...

  9. 利用OpenOffice实现word文档在线预览

    项目中遇到的word文档在线预览需求,查阅很多资料决定利用openoffice转换word文档为pdf/html进行预览实现. 1.下载openoffice4安装 www.openoffice.org ...

  10. 编辑器未包含main类型_利用 ONLYOFFICE 将在线文档编辑器集成到 Python Web 应用程序中...

    通过 API,开发人员可以将 ONLYOFFICE 编辑器集成到网站和利用程序设计语言编写的应用程序中,并能配置和管理编辑器. 来源:https://linux.cn/article-13037-1. ...

最新文章

  1. ASP.NET中相对路径的使用总结
  2. 【Google Play】IARC 年龄分级 ( IARC 国际年龄分级联盟 | Google Play 设置应用年龄分级 )
  3. 速看,三分钟带你了解IP协议!
  4. WannaCry勒索软件还在继续传播和感染中
  5. 托马斯反驳牛顿被骂,普朗克颜值过高遭上帝捉弄,狄拉克却因爱情成话痨
  6. .net core @Html 自定义属性中包含特殊符号解决
  7. 在vscode中打开PDF文件
  8. 分段点处导数怎么求,导数和导函数的极限有关系吗?
  9. 2110449-02-8,2110449-02-8巯基反应性PEG
  10. 5G 时代,AI 如何破竹而出? | AI ProCon
  11. React Hooks 分享
  12. Color类 设置字体颜色、背景颜色
  13. 申请圣文森特牌照申请流程
  14. HTML英雄联盟 效果图代码结构 (多多指教,感谢)
  15. 印象笔记好还是有道云笔记好_有道云笔记和印象笔记哪个好?
  16. 点对点OSPF路由器配置
  17. 预装Win 8.1 Pro环境下安装Win 7双系统
  18. 平衡企业管理与协作Worktile让工作更简单
  19. androidx依赖aar报错
  20. HIVE/SQL 实现同一列数据累加和累乘

热门文章

  1. python实现离散沃尔什变换_【图像处理】沃尔什变换与 python 实现
  2. C/S模型(客户/服务器模型)
  3. 什么是梯度,梯度有什么用
  4. R语言实现行为特征分析(Behavioral Profile,BP)+层次聚类分析(hierarchical agglomerative cluster analysis,HAC)
  5. xinput1_3.dll丢失怎么修复win10_有什么好的修复方法推荐?
  6. [Perl] Data::Dumper模块的用法简介
  7. Node.js简介及安装
  8. 25 岁的 Linux 已经无处不在,它是如何毁了微软统治世界的计划?
  9. 网站横幅切换jquery 插件
  10. Vulnhub Typhoon-v1.02提权