1. 读取 docx 所需库

自动生成《背影》word 文档,以及自动生成日期的脚本代码已经完成。

本节的主要内容,是自动的读取 word 文档的内容,将 word 中的表格、段落文字,以及图片全部读取出来。

这里需要用到的库,是前面用到的 python-docx 库,以及额外的一个 docx2python。

安装命令:

pip install python-docx docx2python

2. 段落的输出

安装好之后,先使用 python-docx 库,读取 word 文件的段落内容,如下代码:

from docx import Documentdocument = Document('背影-read.docx')
for paragraph in document.paragraphs:print(paragraph.text)

这段代码,就是针对 document 文档的段落进行并输出,就是文档的全部文字内容,没有任何的格式。
输出内容如下:

背影我与父亲不相见已二年余了,我最不能忘记的是他的背影。那年冬天,祖母死了,父亲的差使也交卸了,正是祸不单行的日子。我从北京到徐州,打算跟着父亲奔丧回家。到徐州见着父亲,看见满院狼藉的东西,又想起祖母,不禁簌簌地流下眼泪。父亲说:“事已如此,不必难过,好在天无绝人之路!”回家变卖典质,父亲还了亏空;又借钱办了丧事。这些日子,家中光景很是惨澹,一半为了丧事,一半为了父亲赋闲。丧事完毕,父亲要到南京谋事,我也要回北京念书,我们便同行。到南京时,有朋友约去游逛,逗留了一日;第二日上午便须渡江到浦口,下午上车北去。父亲因为事忙,本已说定不送我,叫旅馆里一个熟识的茶房陪我同去。他再三嘱咐茶房,甚是仔细。但他终于不放心,怕茶房不妥帖;颇踌躇了一会。其实我那年已二十岁,北京已来往过两三次,是没有什么要紧的了。他踌躇了一会,终于决定还是自己送我去。我再三劝他不必去;他只说:“不要紧,他们去不好!”我们过了江,进了车站。我买票,他忙着照看行李。行李太多,得向脚夫行些小费才可过去。他便又忙着和他们讲价钱。我那时真是聪明过分,总觉他说话不大漂亮,非自己插嘴不可,但他终于讲定了价钱;就送我上车。他给我拣定了靠车门的一张椅子;我将他给我做的紫毛大衣铺好座位。他嘱我路上小心,夜里要警醒些,不要受凉。又嘱托茶房好好照应我。我心里暗笑他的迂;他们只认得钱,托他们只是白托!而且我这样大年纪的人,难道还不能料理自己么?我现在想想,我那时真是太聪明了。我说道:“爸爸,你走吧。”他望车外看了看,说:“我买几个橘子去。你就在此地,不要走动。”我看那边月台的栅栏外有几个卖东西的等着顾客。走到那边月台,须穿过铁道,须跳下去又爬上去。父亲是一个胖子,走过去自然要费事些。我本来要去的,他不肯,只好让他去。我看见他戴着黑布小帽,穿着黑布大马褂,深青布棉袍,蹒跚地走到铁道边,慢慢探身下去,尚不大难。可是他穿过铁道,要爬上那边月台,就不容易了。他用两手攀着上面,两脚再向上缩;他肥胖的身子向左微倾,显出努力的样子。这时我看见他的背影,我的泪很快地流下来了。我赶紧拭干了泪。怕他看见,也怕别人看见。我再向外看时,他已抱了朱红的橘子往回走了。过铁道时,他先将橘子散放在地上,自己慢慢爬下,再抱起橘子走。到这边时,我赶紧去搀他。他和我走到车上,将橘子一股脑儿放在我的皮大衣上。于是扑扑衣上的泥土,心里很轻松似的。过一会儿说:“我走了,到那边来信!”我望着他走出去。他走了几步,回过头看见我,说:“进去吧,里边没人。”等他的背影混入来来往往的人里,再找不着了,我便进来坐下,我的眼泪又来了。近几年来,父亲和我都是东奔西走,家中光景是一日不如一日。他少年出外谋生,独力支持,做了许多大事。哪知老境却如此颓唐!他触目伤怀,自然情不能自已。情郁于中,自然要发之于外;家庭琐屑便往往触他之怒。他待我渐渐不同往日。但最近两年不见,他终于忘却我的不好,只是惦记着我,惦记着他的儿子。我北来后,他写了一信给我,信中说道:“我身体平安,惟膀子疼痛厉害,举箸提笔,诸多不便,大约大去之期不远矣。”我读到此处,在晶莹的泪光中,又看见那肥胖的、青布棉袍黑布马褂的背影。唉!我不知何时再能与他相见!此文档生成于 2019年12月13日 朱自清信息表格

3. 表格的输出

然后是表格的输出,如下代码:

tables = document.tables
for table in tables:rows = table.rowsfor i in range(0, len(rows)):for cell in table.row_cells(i):print(cell.text, end='  ')print('\n')

详细的代码介绍:

  • document.tables 是获取文档的全部表格,然后进入第一个 for 循环,逐个表格取出并处理
  • table.rows 是获取行对象,使用len()函数,就可以取到行数
  • 然后循环,从 0 取到最后一行
  • 使用 table.row_cells(i) 获取当前行的所有 cell 单元格,使用 for 循环获取每个 cell
  • 然后输出所有 cell 单元格的文本内容,并且换行是空字符串,这是为了将每行的内容,输出时也是一样
  • 然后在一行输出结束时,加换行,将每行内容都分开

以上是表格的代码部分,如下输出结果:

4. 图片的获取和保存

最后一个是读取图片,由于在命令行中,无法输出图片,所以这里的操作,是将所有的图片保存到word文档旁边,如下代码:

from docx2python import docx2pythondocument2 = docx2python('背影-read.docx')
for name, imageData in document2.images.items():with open(name, 'wb') as fp:fp.write(imageData)

这里使用的是 docx2python 库,这个属于一个 docx 的拓展库。

打开文件,读取文档的全部图片名和字节,然后保存即可,如下效果:
image1.jpg 就是从 docx 中读取出来的图片文件。
背景-read.docx 是目标文档。
读取word文档内容.ipynb 是课程源码,启动 jupyter 即可查看源码并运行。

04-读取Word文档内容相关推荐

  1. java如何读取word文档内容并修改指定内容文本颜色

    最近项目涉及到一个功能需求:将指定文本写入word文档,并根据指定词语将word中内容改变颜色并下载. 用到的jar包:spire.doc.jar        org.apache.poi 官网链接 ...

  2. js读取word文档内容_Python学习第九十二天:Python操作word

    1.Python写word文档 要操作word文档首先需要安装python-docx库: pip install python-docx 然后导入docx模块,或者从docx模块中导入Document ...

  3. java读取word文档内容_合并多个Word文档内容,还在复制粘贴就out了,同事五秒轻松搞定...

    在我们工作中,我们经常会编写多个Word文档内容,那么怎么将多个单个的Word文档合并到一个文档中,这就会显得有些难度. 如上图所示,我们需要将三个不同的案例,快速的汇总到我们的案例汇总表当中.许多朋 ...

  4. python读取doc文件_Linux 下Python 读取Word文档内容的方法

    如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了. 但是在Linux下还真是麻烦, 一种方法是用OpenOffice的一个库来进行操作,那么意味这你 ...

  5. java读取word文档内容_Python读取PDF信息插入Word文档

    Hello,上个周末没能搞事情,被一个代码需求给绊住了:朋友在平时工作中会经常重复性地打开不同PDF文件,选取其中特定的几组信息复制粘贴到不同的Word文档中,完成一份PDF文件平均耗时15分钟,想试 ...

  6. Python读取Word文档内容

    # encoding=utf-8 import docx #获取文档对象 file=docx.Document("附件3:分解任务落实至XX室情况表(2022年2月).docx") ...

  7. php识别word语言,PHP读取word文档

    在PHP中读取和写入WORD文档的代码 php // 建立一个指向新COM组件的索引 $word = new COM("word.application") or die(&quo ...

  8. python读取word文档并做简单的批量文档筛选

    python读取word文档并做简单的批量文档筛选 最近参与了一项解析大量的word文档(试验报告形式)的工作,因为其中包含着一些对项目无意义的报告,所以要进行初步地筛选,通过查阅资料发现了pytho ...

  9. c# .net 读取word文档文件,.txt、.doc、.docx、.xls、xlsx

    目前市面上的方案 最受欢迎的"NPOI"."Microsoft.Office.Interop"."Spire.Doc",如果有不全的,欢迎指 ...

  10. python批量提取word指定内容_使用python批量读取word文档并整理关键信息到excel表格的实例...

    目标 最近实验室里成立了一个计算机兴趣小组 倡议大家多把自己解决问题的经验记录并分享 就像在CSDN写博客一样 虽然刚刚起步 但考虑到后面此类经验记录的资料会越来越多 所以一开始就要做好模板设计(如下 ...

最新文章

  1. BZOJ3836 : [Poi2014]Tourism
  2. Enterprise Services (COM+)服务组件开发异常分析
  3. C语言和其他语言的不得不说的差别!
  4. GDAL工具使用示例(一)
  5. 华硕门店点亮系统_6大关键赋能,点亮导购服务力!
  6. php jpg转换为pdf文件,使用PHP进行PDF转换为JPG转换
  7. C语言 从入门到放弃
  8. Android——实现光点模糊渐变的自旋转圆环特效
  9. 有关键词和频率,怎么求共词矩阵?有报酬
  10. win10注入漏洞跳出计算机,win10操作系统本地提权漏洞
  11. Java Reactor Stream
  12. 32位程序和64位程序
  13. 平台服务器的配置信息失败,安装程序配置服务器失败-安装程序配置服务器失败.参考服务器错误日志和Cwindowssqlstp.log了解更多信息...
  14. 腾讯云Linux云服务器搭建网站
  15. 如何优雅的使用markdown写博客--微博图床使用说明
  16. 前端接入阿里云外呼SDK
  17. 【计算机网络】一、概论
  18. 【java毕业设计】基于javaEE+Spring的新闻发布及管理系统设计与实现(毕业论文+程序源码)——新闻发布及管理系统
  19. 「系统安全」浅谈RASP技术攻防
  20. 使用STM32cubeMX写一个简单的LED闪烁

热门文章

  1. Not_flushed_delayed_rows
  2. Android 的窗口管理系统 (View, Canvas, WindowManager)
  3. LNMT架构部署:Linux+Nginx+Mysql+Tomcat
  4. 牛尔新视点:關於醫學美容相關问答
  5. android神器v2ex,这5个堪称神器的APP,用了让你爱不释手!
  6. 编写程序,生成一种贯穿10×10字符数组(初始时全为字符‘.‘)的“随机步法”。
  7. MD5在线加密,带盐
  8. vue 表格时间格式化_表格格式
  9. ubuntu下配置apache2+php+mysql By Assassin
  10. python和unity3d_请教:28岁女自学转行unity3d或python,能否给些选择建议?