之前介绍了一个Python包 openpyxl ,用于处理 Excel ;而对于 Word 文本时同样也有对应的 Python库 Python-docx,在日常办公中,如果需要处理多个 word 文本,且操作步骤都是重复单调的,我想这个库就可以帮到你

在了解 Python-docx 常用函数之前,需要知道 在 Python-docx 各命令所对应 word 各部件,下图所示,

  • Document 指的是 word 文档;
  • paragraph 对应段落;
  • run 对应 一句话中的各个字段,样式调整时,一般面向的操作对象都是逐字段进行;

1,安装 Python-docx

通过 pip 工具即可进行安装,在命令行中输入 pip install Python-docx 即可

2,创建或打开 Document

Python-docx 导入包时是以 docx 命令存在的,与 Opencv 的 Python 版本导入方法相似;创建文件、打开文件以 Document() 命令操作,这里操作时需要注意几个点:

  • 1,Document() 命令是基于默认”模板“创建一个空白文档,随后可对文档进行编辑操作,最后没有用 save() 函数存储的话,文档将伴随程序结束同内存一起
  • 2,Document(path) 命令表示打开一个本地已经存在的 docx 文件,path 表示存放目录若不存在则程序报错;

下面代码中,创建了一个空白 docx,赋值给 document

from docx import Documentdocument = Document()

3,加入一段落

段落作为 docx 文档正文的主要成分,那怎样在创建好的 Document 中加入一段话呢?官方给出了两种方式

1,在文档后面插入

这种方法是比较常见且简单的,命令如下

paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')

方法中将创建好的段落引用指向 paragraph ,表明了光标的位置,后面的一些操作可以借助 paragraph 引用变量来作为定位操作

2,在指定地方的前面插入

文档编辑正常顺序是在末尾进行编辑,但有时在编辑时可能失误少输入一段话或文字,这时就用到 在指定位置前面 进行插入操作

prior_paragraph = paragraph.insert_paragraph_before('Lorem ipsum')

此命令常用于 修正文档 ,当需要在一段话前面添加一些别的文字时。

4,标题

docx 中 会用一、二、三级标题将正文分为几部分,让文本主次感更强;Python-docx 有对应的内置函数供我们使用,内置函数中标题分为主标题和子标题

创建标题的函数方法中,有一个参数 level 可进行修改,若不设定时默认为 主标题(leve = 0);

document.add_heading('The REAL meaning of the universe')

子标题分为 1-9 九个等级,修改参数 level 即可

document.add_heading('The role of dolphins', level=2)

5,分页符

在 Word 中进行文本编辑,想在单独的一个新页面编写文本时,就需要加入一个 强制分页符,命令如下

document.add_page_break()

这里需要注意下,加入分页符之后,新页面上编辑的段落样式属性与之前页面段落属性是分隔开的

6,表格

在文档中创建一个 2*2 的 表格

table = document.add_table(rows=2, cols=2)

表格中每个单元格可进行文本编辑,颜色填充;对于特定表格而言可通过 row、column 索引来进行定位,这里借助了操作 Excel 表格的思想

cell = table.cell(0, 1)

赋值其文本内容

cell.text = 'parrot, possibly dead'

对一个一个单元格修改操作太麻烦了,可以一次选中指定列,对其单元格数据进行逐个修改

row = table.rows[1]
row.cells[0].text = 'Foo bar to you.'
row.cells[1].text = 'And a hearty foo bar to you too sir!'

table.rows[index] 返回索引为 index 的指定行,根据 .rows.cols 表示 表格的全部行或列是可迭代的,因此可通过 for 循环来访问每一个单元格

for row in table.rows:for cell in row.cells:print(cell.text)

因为 .rows.cols 是可迭代的,通过 len() 命令来获取行、列数

row_count = len(table.rows)
col_count = len(table.columns)

除了以上操作之外,还可以向 table 中逐渐添加行、列命令

row = table.add_row()
col = table.add_col()

上面提到了 创建表格,单元格修改,创建新行/列,逐行/列迭代,下面用个实例做个简单总结,代码中完成功能如下:

  • 1,item 创建一个 3*3 的元组数据;
  • 2,在 word 中新建一个 table,一行三列;
  • 3,创建好的 table 的表头依次设置为 Qty,SKU,Description;
  • 4,将 item 中的元素,以 table 逐行 3 个的方式创建;
# get table data -------------
items = ((7, '1024', 'Plush kittens'),(3, '2042', 'Furbees'),(1, '1288', 'French Poodle Collars, Deluxe'),
)# add table ------------------
table = document.add_table(1, 3)# populate header row --------
heading_cells = table.rows[0].cells
heading_cells[0].text = 'Qty'
heading_cells[1].text = 'SKU'
heading_cells[2].text = 'Description'# add a data row for each item
for item in items:cells = table.add_row().cellscells[0].text = str(item.qty)cells[1].text = item.skucells[2].text = item.desc

此外,还可修改 表格的样式,word 文档中的表格样式这里都可以设定(样式名称可以通过word 文档自有的样式,将鼠标放到样式的缩略图上即可查看),但需要注意的是,使用样式时需要去掉word软件中样式名字中的空格,例如下面 Office 原样式名字为 Light Shading-Accent1,这里直接把中间空格去掉

table.style = 'LightShading-Accent1'

7,图片

在 python-docx 中添加图片用下面命令即可完成

document.add_picture('image-filename.png')

上面加入的是本地文件 path ,除此之外还可以使用 file-like object,这种格式对于数据库或者网络上的图片读取时时非常方便的

修改图片大小

python-docx 加入图像默认表示的是 native size,正常图片加入时会出现相同图片的一侧出现 4.167 inches 的空白处,大概占比纸张宽度的一半;在获取想要图像大小时,可以指定宽度或高度设为较为方便的单位

from docx.shared import Inchesdocument.add_picture('image-filename.png', width=Inches(1.0))

8, 应用段落样式

设定段落样式方法有两种,一种创建时就可以设置

document.add_paragraph('Lorem ipsum dolor sit amet.', style='ListBullet')

另一种是创建完之后再再进行设置(这时不需要去掉样式名称中的空格)

paragraph = document.add_paragraph('Lorem ipsum dolor sit amet.')
paragraph.style = 'List Bullet'

9,字体加黑并斜体化

对字体做斜体和加黑操作之前, 需要理解在一个段落中都做了什么事情,简单来说两部分:

  • 1,一个段落具有全部 block-level formatting ,比如制表符、行高、tabs 等;
  • 2,Character-level formatting ,例如粗体、斜体,应用的是 run对象,在段落中的所有内容必须是一个 run ,且不仅包含一个,

Run 对象同时包含一个 .bold.italic 属性,可让你来对其值进行设置

paragraph = document.add_paragraph('Lorem ipsum ')
run = paragraph.add_run('dolor')
run.bold = True
paragraph.add_run(' sit amet.')

上面代码中最后创建的文本格式形如:Lorem ipsum dolor sit amet.

需要注意的是设置 bold 或 italic 时,可以把 .add_run() 命令直接放在右边

paragraph.add_run('dolor').bold = True# is equivalent to:run = paragraph.add_run('dolor')
run.bold = True# except you don't have a reference to `run` afterward

10,字符样式

除了上面加黑、斜体之外、还可定义字符样式( character styles ), 定义时加入一行新的 run 对象;例如

paragraph = document.add_paragraph('Normal text, ')
paragraph.add_run('text with emphasis.', 'Emphasis')

上面创建一个文本 ,结果如下

Normal text,text with emphasis. ;text with emphasis. 部分应用 Emphasis(强调) 的字符格式

上面代码也可改为;

paragraph = document.add_paragraph('Normal text, ')
run = paragraph.add_run('text with emphasis.')
run.style = 'Emphasis'

与段落样式一样,样式名字与 Word UI 里的一样,在 Word 样式管理器中都能找得到!

docx文档怎么排列图片_Python-docx 对 word 文本处理实现自动化操作!相关推荐

  1. docx文档怎么排列图片_PDF怎么转Word?这几款软件满足你的要求

    不知道大家有没有遇到这样一种情况,在办公室中本来就已经完成好自己手头的工作,突然老板给你很多份PDF文件,让你把这些PDF文件转换为Word. 这个时候,除了想办法解决这个问题之外,没有别的办法了.你 ...

  2. docx文档怎么排列图片_“胶水语言”办公自动化Word篇——使用Python编辑和读取Word文档

    python调用word接口主要用到的模板为python-docx,基本操作官方文档有说明. 使用python新建一个word文档,操作就像文档里介绍的那样: from docx import Doc ...

  3. docx文档怎么排列图片_pdf怎么快速另存为jpg?有多种方法介绍吗?

    如果是一种文档下的两种格式,例如WORD文档的DOC格式和DOCX格式,EXCEL文档的XLSX格式和XLS格式,那么我们要将它们互相转换,是没有问题的,但是如果原本就是两种不同的格式,要转换起来可就 ...

  4. docx文档怎么排列图片_PDF文档中的图片怎么提取出来?不得不说这两个方法太好用了...

    原标题:PDF文档中的图片怎么提取出来?不得不说这两个方法太好用了 目前PDF文档被大家广泛应用,主要是因为PDF文档在传输和转换的过程中比较稳定,所以PDF格式几乎是办公文件格式的首选.大家都知道P ...

  5. docx文档怎么排列图片_格式转换太麻烦?仅需一行命令,搞定图片、音频、视频、文本批量转换!...

    每天12:18准时给大家惊喜! 大家好!我是好奇仔,热衷于搜罗和分享各种好用.实用的软件神器和资源,有手机软件.办公软件.APP,还有网站资源-- 来自:芒种学院(ID:lazy_info)  作者: ...

  6. python读取docx中表格 图片_python 解析docx文档的方法,以及提取插入的文本对象和图片...

    首先安装docx模块,通过pip install docx或者在docx官方链接上下载安装都可以 下面来看下如何解析docx文档:文档格式如下 有3个部分组成 1 正文:text文档 2 一个表格. ...

  7. 使用Python批量提取并保存docx文档中的图片

    问题描述: 提取docx文档中的所有图片,保存为独立的图片文件. 技术要点: 需要安装扩展库python-docx 示例文件: 参考代码: 码运行结果: 神操作: 如果实在看不懂上面的代码,但是又有同 ...

  8. python操作word文档中的图片_Python操作word文档插入图片和表格的实例演示

    前言P6Q免费资源网 图片是Word的一种特殊内容,这篇文章主要介绍了关于Python操作word文档,向里面插入图片和表格的相关内容,下面话不多说了,来一起看看详细的代码P6Q免费资源网 实例代码: ...

  9. java docx文档解析_带有docx4j的Java Word(.docx)文档

    java docx文档解析 几个月前,我需要创建一个包含许多表和段落的动态Word文档. 过去,我曾使用POI来实现此目的,但是我发现它很难使用,并且在创建更复杂的文档时对我来说效果不佳. 因此,对于 ...

最新文章

  1. Linux_信号与信号量【转】
  2. python提供两个对象身份比较操作符什么和什么来测试_python - 第二部分
  3. 初学者如何选出最适合自己深度学习框架?
  4. eclipse 高效快捷键大全
  5. 图书管理系统数据字典_2. 结构化——数据字典
  6. python3中format方法_[翻译]python3中新的字符串格式化方法-----f-string
  7. python基础入门(4)之布尔值
  8. 微信暂停新用户注册标志一个时代的结束
  9. [Stage3D]硬件加速的径向模糊
  10. Linux Service管理
  11. 【算法总结】数学问题-高精度整数
  12. 163编辑器学习笔记
  13. android手机 无线充电,无线充电手机有哪些?支持无线充电的手机推荐
  14. Excel Pearson相关系数
  15. 10-Redis 笔记
  16. 网络连接正常,浏览器显示无法访问
  17. 目标检测——day66 Scaled-YOLOv4: Scaling Cross Stage Partial Network
  18. 批处理(bat)脚本语言(4) - FOR循环
  19. 服务器网维虚拟盘无法启动,网维大师网吧虚拟磁盘客户机不出盘案例
  20. 共鸣(resonance)

热门文章

  1. web网页大作业:基于html设计与实现的茶文化网站12页(带psd)
  2. 1602LCD液晶显示
  3. 现场感受:PowerPoint 2010轻松打造耳目一新的演讲
  4. java 屏蔽地域性访问_外贸网站屏蔽中国IP访问的多种方法
  5. 安卓下调用python(并调用C库暂时失败)暂时使用JNI方式
  6. linux烟雾传感器程序,Linux嵌入式学习-烟雾传感器驱动-字符设备驱动-按键驱动...
  7. 好书推荐《C++17 in Detail》
  8. 胡思乱想|时间加速与相对快慢
  9. 4.4 集成运放的性能指标及低频等效电路
  10. 天天基金基金经理接口