技术的运用可以解决大量重复处理的工作,提高效率。

  比如,有大量的论文电子文档(.docx格式),需要提取文档中的题目、作者、单位等信息制成表格(.xlsx格式),一般每篇论文的题目在第1行,副标题在第2行(如果有的话),作者及单位信息在接下来的第3行、第4行。如下图所示。

  如果文件非常多,手动复制、粘贴的话,会比较繁琐费时。我们可以通过找出规律,用python实现自动提取。

  代码如下(readWord.py文件):

#####readWord.py#####

import docx,os,openpyxl

dirpath = './'

list = []

desfile = 'desfile.xlsx'

#创建excel文件

hxlsx = openpyxl.Workbook()

sheet = hxlsx.active

sheet.append(['序号','题目','作者','单位','文件名'])

#读取指定目录'docx'文件

files = os.listdir(dirpath)

i = 0

for file in files:

number = 0

if file[-5:] == '.docx':

i += 1

hfile = docx.Document(file)

if hfile.paragraphs[0].text == '':#题目上面有1个空行

number = 1;

title = hfile.paragraphs[number].text.strip()

if hfile.paragraphs[number+1].text[:2] == '——':#题目下面有副标题

title += hfile.paragraphs[number+1].text.strip()

number += 1

if hfile.paragraphs[number+1].text == '':#作者上面有1个空行

number += 1

author = hfile.paragraphs[number+1].text.strip()

custom = hfile.paragraphs[number+2].text.strip()

custom = custom.strip('(')

custom = custom.strip('(')

custom = custom.strip(')')

custom = custom.strip(')')

#追加插入序号、题目、作者、单位信息、文件名相应内容

sheet.append([i,title,author,custom,file])

print('finish')

hxlsx.save(desfile)

#####end#####

  docx、openpyxl模块分别实现对word、excel文件的操作,如果没有安装的话,需要先进行安装。

  windows系统在cmd命令行下,分别输入:

  pip install python-docx

  pip install openpyxl

  效果如下图:

  接下来,测试前述功能代码的效果。readWord.py遍历当前目录下所有".docx"论文文件,提取文件中前面几行中的论文题目、作者、单位信息,并导出到" desfile.xlsx"文件。实现效果如下图所示:

批量处理word文件内容_用python批量提取word文件信息,导出到excel文件相关推荐

  1. python批量提取word指定内容_使用python批量读取word文档并整理关键信息到excel表格的实例...

    目标 最近实验室里成立了一个计算机兴趣小组 倡议大家多把自己解决问题的经验记录并分享 就像在CSDN写博客一样 虽然刚刚起步 但考虑到后面此类经验记录的资料会越来越多 所以一开始就要做好模板设计(如下 ...

  2. python 文件更新_使用Python批量更新服务器文件【新手必学】

    买了个Linux服务器,Centos系统,装了个宝塔搭建了10个网站,比如有时候要在某个文件上加点代码,就要依次去10个文件改动,虽然宝塔是可视化页面操作,不需要用命令,但是也麻烦,虽然还有git的h ...

  3. python删除文件和linux删除文件区别_使用Python批量删除文件列表

    使用Python批量删除文件列表 环境: 已知要删除的文件列表,即确定哪些文件要删除. 代码如下: #!/usr/bin/env python #coding=utf-8 #目的:本程序主要为删除给定 ...

  4. python 批量增加文件前缀_用python批量提取视频中的音频文件

    安装MoviePy pip3 install MoviePy 安装成功后需要打开MoviePy所在的文件夹 C:PythonLibsite-packagesmoviepy 打开config_defau ...

  5. python读压缩文件内容_使用Python读写及压缩和解压缩文件的示例

    读写文件 首先看一个例子: f = open('thefile.txt','w') #以写方式打开, try: f.write('wokao') finally: f.close() 文件的打开方式: ...

  6. 怎么读取h5文件内容_【Python编程特训连载72】读取two.txt文件,模拟输出“两会”内容 答案公布...

    董明珠是中国产业界的女强人,她曾经说过 "两会"的名言:"成功人的两会:开会,培训会.普通人的两会:约会,聚会.穷人的两会:这也不会,那也不会.奋斗的人两会:必须会,一定 ...

  7. python删除excel内容_用python批量删除sheet

    因为工作关系维护了一个Excel文件,格式是xlsx,每天一个sheet,从17年下半年到目前已经有上百个sheet,导致文件越来越大,发邮件加载也变得很慢.想要删除一部分,保留近一个月的,当然手动删 ...

  8. python替换文件内容_使用python替换文件内容

    # 传入文件(file),将旧内容(old_content)替换为新内容(new_content) def replace(file, old_content, new_content): conte ...

  9. python新建word文档_使用Python 自动生成 Word 文档的教程

    当然要用第三方库啦 :) 使用以下命令安装: pip install python-docx 使用该库的基本步骤为: 1.建立一个文档对象(可自动使用默认模板建立,也可以使用已有文件). 2.设置文档 ...

最新文章

  1. mysql事务处理 begin_mysql 事务处理
  2. python的本质,讨论 - 廖雪峰的官方网站
  3. Hbase CallQueueTooBigException 异常处理
  4. CACHECLOUDV1.0慢日志定时任务创建流程分析
  5. 获取百度网盘提取码的两种方法
  6. 车辆跟踪设备中晶振分类简介
  7. am解调matlab程序,AM调制解调的matlab仿真
  8. win10安装系统教程
  9. easyUI分页中,如何实现页面跳转,再返回时,仍然到跳转前页数。(含页面显示条数)
  10. 变速变调软件有哪些?这个不错的变速变调软件值得一试
  11. 说说内核与计算机硬件结构
  12. 以鸿蒙为景柱1009无标题,鸿蒙的意思
  13. i78700k配什么显卡好_八代i7 8700配什么显卡好?intel酷睿i7-8700适合搭配的显卡推荐...
  14. base64加密解密 nodejs
  15. python画热力分布图 pil_Python画attention map与原图叠加的热力图
  16. Pyecharts - 数据可视化
  17. 手机上有没有安卓版桌面便利贴?
  18. 面向非圆曲线的数控代码生成器
  19. 动态路由协议 RIP
  20. wordpress中文网,wp中文网站,wordpress中文网建站

热门文章

  1. selenium提取数据之driver对象定位标签元素获取标签对象的方法
  2. 研究SLAM,对编程的要求有多高?
  3. 百度提出PADDLESEG:一个高效的图像分割开发工具
  4. 基于光流的3D速度检测
  5. pytorch2——Pytorch基础数据结构——张量(深度之眼)
  6. 栈与队列4——用一个栈实现另一个栈的排序
  7. linux下添加路由的方法
  8. 和我一起打造个简单搜索之SpringDataElasticSearch入门
  9. Tomcat介绍、安装JDK、安装Tomcat
  10. 诺基亚:IMPACT智能管理平台已安全管理超过15亿部物联网设备