from docx import Document

import re

result = {'li':[], 'fig':[], 'tab':[], 'tuozhan':[]}

doc = Document(r'C:\test.docx')

for p in doc.paragraphs:

t = p.text #获取每一段的文本

if re.match('例\d+-\d+ ', t):

result['li'].append(t)

elif re.match('图\d+-\d+ ', t):

result['fig'].append(t)

elif re.match('表\d+-\d+ ', t):

result['tab'].append(t)

print('='*30)

for li in result['li']:

print(li)

print('='*30)

for fig in result['fig']:

print(fig)

print('='*30)

for tab in result['tab']:

print(tab)

Python提取docx文档中例题、插图、表格清单相关推荐

  1. Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址

    推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...

  2. Python使用标准库zipfile提取docx文档中所有图片

    清华科技大讲堂免费直播课预告: 免费直播课|Python数据可视化与科学计算可视化案例分享,5月28日晚20:00-21:30 ============ 哔哩哔哩网站免费视频观看地址: 董老师在哔哩哔 ...

  3. html5多个图片位置_Python使用标准库zipfile提取docx文档中所有图片

    清华科技大讲堂免费直播课预告: 免费直播课|Python数据可视化与科学计算可视化案例分享,5月28日晚20:00-21:30============ 哔哩哔哩网站免费视频观看地址: 董老师在哔哩哔哩 ...

  4. python docx 提取图片_Python提取docx文档中所有嵌入式图片和浮动图片

    术语: 浮动图片,是指在Word文档中位置可以自由移动.可以环绕文字或放置于文字上方.下方的图片,不占文档流的位置,可以和文字或嵌入式图片重叠. 嵌入式图片或行内图片,和文档中的文字一样占文档流的位置 ...

  5. Python提取Word文档中所有超链接地址和文本

    使用Python扩展库python-docx操作Word文档的相关文章,可以阅读: Python批量导入图片到Word文件 Python查找Word文件中红色和加粗的文字(附元宵节送书活动中奖名单) ...

  6. 批量提取docx文档中特定样式(如黑体加粗)及位置的文本

    被处理:批量论文docx,具有固定格式/结构. 提取:中英文论文题目(多行)及全部作者(一行),并写入excel 定位条件: 题目-黑体加粗,作者-紧跟题目后 中文题目在首行开始 英文题目在DOI行下 ...

  7. Python提取word文档中的图片,识别图片文字之后再转存为word文档

    #!/usr/bin/env python # coding: utf-8 import zipfile #压缩包 import os #文件库 import shutil import pytess ...

  8. Python把docx文档中的题库导入SQLite数据库

    #本文所用的docx文档题库包含很多段,每段一个题目,格式为:   问题.(答案) #与之对应的数据库datase.db中tiku表包含kechengmingcheng,zhangjie,timu,d ...

  9. python pdf 图片_第一节:python提取PDF文档中的图片

    1.安装第三方类库pymupdf:pip install pymupdf 2.安装完成后直接上代码,代码如下: import fitz import time import re import os ...

最新文章

  1. vuejs 轮播_如何在VueJS中设计和构建轮播功能
  2. 社会内卷的真正原因:华为内部论坛的这篇短文讲透了
  3. php7 电子书 下载,php7.3.8中文电子手册
  4. 如何下载所有Instagram照片
  5. MAVEN setting.xml配置文件详解
  6. win7打开win10共享计算机要凭据,win10打开共享文件夹后要求凭证怎么办
  7. 留学Assignment写作要注意逻辑谬误
  8. 英文系统下手工安装五笔86版
  9. 从乘客丢钱包的报警处理过程谈职业化和专业化
  10. Entry name 'META-INF/MANIFEST.MF' collided
  11. Golang学习笔记汇总
  12. NXP JN5189 ZigBee 3.0开发环境搭建
  13. 普元 AppServer 7.0 服务器的日志在哪查看?
  14. ElasticSearch SocketTimeoutException解决
  15. 交易码 MWS X7 会计科目表 XXX 没有在表 T030K 中定义/交易码 VST J2 会计科目表 XXX 没有在表 T030K 中定义
  16. NVIDIA IC校招笔试题目
  17. 小程序---仿百思不得姐
  18. 【差分进化算法】基于适应度-距离-平衡的自适应引导差分进化 (FDB-AGDE) 算法附matlab代码
  19. 手动建库:按标准快速创建MDB数据库,快速创建Arcgis数据库。
  20. 所有的华为手机都能用鸿蒙系统吗,华为完全开放鸿蒙,未来所有手机都能用鸿蒙系统?...

热门文章

  1. gdiplus判断一个点是否在圆弧线上_面试前必读!!!原生JS补给(上)
  2. Android属性动画赏析,Android源码分析—属性动画的工作原理
  3. Hello Quartz (第三部分)
  4. git 学习1--查看全局配置
  5. 基于JAVA+SpringBoot+Mybatis+MYSQL的校园招聘管理系统
  6. 安卓开发之开启子线程以及安卓的消息机制原理
  7. 利用sort对数组快速排序
  8. 写入和读取外部存储文件
  9. 1.4.2 solr字段类型--(1.4.2.4)使用Dates(日期)
  10. SQLServer的三种Recovery Model