批量处理word文件内容_用python批量提取word文件信息,导出到excel文件
技术的运用可以解决大量重复处理的工作,提高效率。
比如,有大量的论文电子文档(.docx格式),需要提取文档中的题目、作者、单位等信息制成表格(.xlsx格式),一般每篇论文的题目在第1行,副标题在第2行(如果有的话),作者及单位信息在接下来的第3行、第4行。如下图所示。
如果文件非常多,手动复制、粘贴的话,会比较繁琐费时。我们可以通过找出规律,用python实现自动提取。
代码如下(readWord.py文件):
#####readWord.py#####
import docx,os,openpyxl
dirpath = './'
list = []
desfile = 'desfile.xlsx'
#创建excel文件
hxlsx = openpyxl.Workbook()
sheet = hxlsx.active
sheet.append(['序号','题目','作者','单位','文件名'])
#读取指定目录'docx'文件
files = os.listdir(dirpath)
i = 0
for file in files:
number = 0
if file[-5:] == '.docx':
i += 1
hfile = docx.Document(file)
if hfile.paragraphs[0].text == '':#题目上面有1个空行
number = 1;
title = hfile.paragraphs[number].text.strip()
if hfile.paragraphs[number+1].text[:2] == '——':#题目下面有副标题
title += hfile.paragraphs[number+1].text.strip()
number += 1
if hfile.paragraphs[number+1].text == '':#作者上面有1个空行
number += 1
author = hfile.paragraphs[number+1].text.strip()
custom = hfile.paragraphs[number+2].text.strip()
custom = custom.strip('(')
custom = custom.strip('(')
custom = custom.strip(')')
custom = custom.strip(')')
#追加插入序号、题目、作者、单位信息、文件名相应内容
sheet.append([i,title,author,custom,file])
print('finish')
hxlsx.save(desfile)
#####end#####
docx、openpyxl模块分别实现对word、excel文件的操作,如果没有安装的话,需要先进行安装。
windows系统在cmd命令行下,分别输入:
pip install python-docx
pip install openpyxl
效果如下图:
接下来,测试前述功能代码的效果。readWord.py遍历当前目录下所有".docx"论文文件,提取文件中前面几行中的论文题目、作者、单位信息,并导出到" desfile.xlsx"文件。实现效果如下图所示:
批量处理word文件内容_用python批量提取word文件信息,导出到excel文件相关推荐
- python批量提取word指定内容_使用python批量读取word文档并整理关键信息到excel表格的实例...
目标 最近实验室里成立了一个计算机兴趣小组 倡议大家多把自己解决问题的经验记录并分享 就像在CSDN写博客一样 虽然刚刚起步 但考虑到后面此类经验记录的资料会越来越多 所以一开始就要做好模板设计(如下 ...
- python 文件更新_使用Python批量更新服务器文件【新手必学】
买了个Linux服务器,Centos系统,装了个宝塔搭建了10个网站,比如有时候要在某个文件上加点代码,就要依次去10个文件改动,虽然宝塔是可视化页面操作,不需要用命令,但是也麻烦,虽然还有git的h ...
- python删除文件和linux删除文件区别_使用Python批量删除文件列表
使用Python批量删除文件列表 环境: 已知要删除的文件列表,即确定哪些文件要删除. 代码如下: #!/usr/bin/env python #coding=utf-8 #目的:本程序主要为删除给定 ...
- python 批量增加文件前缀_用python批量提取视频中的音频文件
安装MoviePy pip3 install MoviePy 安装成功后需要打开MoviePy所在的文件夹 C:PythonLibsite-packagesmoviepy 打开config_defau ...
- python读压缩文件内容_使用Python读写及压缩和解压缩文件的示例
读写文件 首先看一个例子: f = open('thefile.txt','w') #以写方式打开, try: f.write('wokao') finally: f.close() 文件的打开方式: ...
- 怎么读取h5文件内容_【Python编程特训连载72】读取two.txt文件,模拟输出“两会”内容 答案公布...
董明珠是中国产业界的女强人,她曾经说过 "两会"的名言:"成功人的两会:开会,培训会.普通人的两会:约会,聚会.穷人的两会:这也不会,那也不会.奋斗的人两会:必须会,一定 ...
- python删除excel内容_用python批量删除sheet
因为工作关系维护了一个Excel文件,格式是xlsx,每天一个sheet,从17年下半年到目前已经有上百个sheet,导致文件越来越大,发邮件加载也变得很慢.想要删除一部分,保留近一个月的,当然手动删 ...
- python替换文件内容_使用python替换文件内容
# 传入文件(file),将旧内容(old_content)替换为新内容(new_content) def replace(file, old_content, new_content): conte ...
- python新建word文档_使用Python 自动生成 Word 文档的教程
当然要用第三方库啦 :) 使用以下命令安装: pip install python-docx 使用该库的基本步骤为: 1.建立一个文档对象(可自动使用默认模板建立,也可以使用已有文件). 2.设置文档 ...
最新文章
- mysql事务处理 begin_mysql 事务处理
- python的本质,讨论 - 廖雪峰的官方网站
- Hbase CallQueueTooBigException 异常处理
- CACHECLOUDV1.0慢日志定时任务创建流程分析
- 获取百度网盘提取码的两种方法
- 车辆跟踪设备中晶振分类简介
- am解调matlab程序,AM调制解调的matlab仿真
- win10安装系统教程
- easyUI分页中,如何实现页面跳转,再返回时,仍然到跳转前页数。(含页面显示条数)
- 变速变调软件有哪些?这个不错的变速变调软件值得一试
- 说说内核与计算机硬件结构
- 以鸿蒙为景柱1009无标题,鸿蒙的意思
- i78700k配什么显卡好_八代i7 8700配什么显卡好?intel酷睿i7-8700适合搭配的显卡推荐...
- base64加密解密 nodejs
- python画热力分布图 pil_Python画attention map与原图叠加的热力图
- Pyecharts - 数据可视化
- 手机上有没有安卓版桌面便利贴?
- 面向非圆曲线的数控代码生成器
- 动态路由协议 RIP
- wordpress中文网,wp中文网站,wordpress中文网建站