python统计word词频_python统计word文档中的词频
如何将统计word文档中的词频呢?先用docx模块将word文档转变成txt格式,然后使用jieba模块进行分词,并统计词频。是不是很简单~
#2020年3月10日
#Elizabeth
from docx import Document
import jieba #分词模块
#自定义函数,将word文档写入txt文档
def to_txt(path):
document=Document(path)
txt=open('/Users/fangluping/Desktop/数据分析笔试试题/词频统计.txt','w+')
for paragraph in document.paragraphs:
text=paragraph.text
txt.write(text)
txt.close()
return txt
if __name__=='__main__':
path0='/Users/fangluping/Desktop/数据分析笔试试题/笔试题目-V1.0.docx'
to_txt(path0) #调用写入txt文档的函数
#分词
txt=open('/Users/fangluping/Desktop/词频统计.txt','r',encoding='utf-8').read()
words=jieba.lcut(txt)
counts={}
for word in words:
if len(word)==1:
python统计word词频_python统计word文档中的词频相关推荐
- python docx 提取图片_Python提取docx文档中所有嵌入式图片和浮动图片
术语: 浮动图片,是指在Word文档中位置可以自由移动.可以环绕文字或放置于文字上方.下方的图片,不占文档流的位置,可以和文字或嵌入式图片重叠. 嵌入式图片或行内图片,和文档中的文字一样占文档流的位置 ...
- 批量清空 Word 、Excel、PPT 文档中的标题、作者、版本号、公司、创建时间等元数据
概要:「我的ABC软件工具箱」提供了强大的清空 Office 文档元数据的功能,包括常见的作者.版本号.公司.创建时间.修改时间等这些信息.支持的文档格式有 Word .Excel.PPT,能够一键对 ...
- Python使用标准库zipfile提取docx文档中所有图片
清华科技大讲堂免费直播课预告: 免费直播课|Python数据可视化与科学计算可视化案例分享,5月28日晚20:00-21:30 ============ 哔哩哔哩网站免费视频观看地址: 董老师在哔哩哔 ...
- python逐行读取txt写入excel_用python从符合一定格式的txt文档中逐行读取数据并按一定规则写入excel(openpyxl支持Excel 2007 .xlsx格式)...
前几天接到一个任务,从gerrit上通过ssh命令获取一些commit相关的数据到文本文档中,随后将这些数据存入Excel中.数据格式如下图所示 观察上图可知,存在文本文档中的数据符合一定的格式,通过 ...
- 批量修改 Word 、Excel、PPT 文档中的标题、作者、版本号、公司、创建时间等元数据
概要:「我的ABC软件工具箱」提供了强大的修改 Office 文档元数据的功能,包括常见的作者.版本号.公司.创建时间.修改时间等这些信息.支持的文档格式有 Word .Excel.PPT,既能够对原 ...
- Word学习笔记:P4-在文档中插入图片文字环绕
文章目录 一.对图片的操作 1.1 插入图片 1.2 图片视觉设计 1.3 文字环绕 1.4 移除背景 一.对图片的操作 1.1 插入图片 现在我们有一篇文章,我准备在第二段之前插入一张图片. 我们鼠 ...
- word文档纯字数统计_如何在您的Word文档中插入字数统计
word文档纯字数统计 Word tracks certain summary information about documents, such as the number of words in ...
- python批量读取图片并复制入word_提取word文档中的图片并使用Python进行批量格式转换,出,Word,里,利用,python...
日常工作中,你是否遇到过这样的场景,领导发来一份 Word 文档,要求你将文档中的图片存储到一个文件夹内,并且还要将图片都改成 .jpg 或者 .png,你会怎么办?你是不是一边内心崩溃,一边开始一张 ...
- Java版Word开发工具Aspose.Words功能解析:查找和替换Word文档中的文本
MS Word提供了一种简单的方法来查找和替换文档中的文本.查找和替换文本的一种流行用例之一可能是在文档之间的敏感信息在各个实体之间共享之前,对其进行删除或替换.但是,手动过程可能需要您安装MS Wo ...
最新文章
- jTable 滚动条
- python批量读取文件夹中的所有excel文件-python遍历文件夹下所有excel文件
- 树状图栏目切换_AAAI 2020 | 中山大学HCP实验室:基于树状结构策略的渐进强化学习,代码已开源...
- 通过Dapr实现一个简单的基于.net的微服务电商系统(二)——通讯框架讲解
- 单片机特殊功能寄存器
- [转]bad interpreter:No such file or directory的原因
- python遍历数据
- 机器学习3/100天-多特征线形回归
- 重温JS基础--创建对象
- 反编译那些事儿(二)—枚举的反编译
- 纯软件归档产品的好处
- 一些.NET的开源项目资料
- 谷歌网盘国内下载API
- echarts实现中国地图,山西地图,图表面积图配置项
- matlab解rlc电路方程,RLC电路matlab仿真.pdf
- 斐波那契问题——上台阶问题
- 如何选择适合自己业务的服务器配置
- 石沉大海的简历和优质简历的差别
- AndroidStudio界面跳转
- 柔性显示实现的关键技术