Python提取docx文档中例题、插图、表格清单
from docx import Document
import re
result = {'li':[], 'fig':[], 'tab':[], 'tuozhan':[]}
doc = Document(r'C:\test.docx')
for p in doc.paragraphs:
t = p.text #获取每一段的文本
if re.match('例\d+-\d+ ', t):
result['li'].append(t)
elif re.match('图\d+-\d+ ', t):
result['fig'].append(t)
elif re.match('表\d+-\d+ ', t):
result['tab'].append(t)
print('='*30)
for li in result['li']:
print(li)
print('='*30)
for fig in result['fig']:
print(fig)
print('='*30)
for tab in result['tab']:
print(tab)
Python提取docx文档中例题、插图、表格清单相关推荐
- Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址
推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...
- Python使用标准库zipfile提取docx文档中所有图片
清华科技大讲堂免费直播课预告: 免费直播课|Python数据可视化与科学计算可视化案例分享,5月28日晚20:00-21:30 ============ 哔哩哔哩网站免费视频观看地址: 董老师在哔哩哔 ...
- html5多个图片位置_Python使用标准库zipfile提取docx文档中所有图片
清华科技大讲堂免费直播课预告: 免费直播课|Python数据可视化与科学计算可视化案例分享,5月28日晚20:00-21:30============ 哔哩哔哩网站免费视频观看地址: 董老师在哔哩哔哩 ...
- python docx 提取图片_Python提取docx文档中所有嵌入式图片和浮动图片
术语: 浮动图片,是指在Word文档中位置可以自由移动.可以环绕文字或放置于文字上方.下方的图片,不占文档流的位置,可以和文字或嵌入式图片重叠. 嵌入式图片或行内图片,和文档中的文字一样占文档流的位置 ...
- Python提取Word文档中所有超链接地址和文本
使用Python扩展库python-docx操作Word文档的相关文章,可以阅读: Python批量导入图片到Word文件 Python查找Word文件中红色和加粗的文字(附元宵节送书活动中奖名单) ...
- 批量提取docx文档中特定样式(如黑体加粗)及位置的文本
被处理:批量论文docx,具有固定格式/结构. 提取:中英文论文题目(多行)及全部作者(一行),并写入excel 定位条件: 题目-黑体加粗,作者-紧跟题目后 中文题目在首行开始 英文题目在DOI行下 ...
- Python提取word文档中的图片,识别图片文字之后再转存为word文档
#!/usr/bin/env python # coding: utf-8 import zipfile #压缩包 import os #文件库 import shutil import pytess ...
- Python把docx文档中的题库导入SQLite数据库
#本文所用的docx文档题库包含很多段,每段一个题目,格式为: 问题.(答案) #与之对应的数据库datase.db中tiku表包含kechengmingcheng,zhangjie,timu,d ...
- python pdf 图片_第一节:python提取PDF文档中的图片
1.安装第三方类库pymupdf:pip install pymupdf 2.安装完成后直接上代码,代码如下: import fitz import time import re import os ...
最新文章
- vuejs 轮播_如何在VueJS中设计和构建轮播功能
- 社会内卷的真正原因:华为内部论坛的这篇短文讲透了
- php7 电子书 下载,php7.3.8中文电子手册
- 如何下载所有Instagram照片
- MAVEN setting.xml配置文件详解
- win7打开win10共享计算机要凭据,win10打开共享文件夹后要求凭证怎么办
- 留学Assignment写作要注意逻辑谬误
- 英文系统下手工安装五笔86版
- 从乘客丢钱包的报警处理过程谈职业化和专业化
- Entry name 'META-INF/MANIFEST.MF' collided
- Golang学习笔记汇总
- NXP JN5189 ZigBee 3.0开发环境搭建
- 普元 AppServer 7.0 服务器的日志在哪查看?
- ElasticSearch SocketTimeoutException解决
- 交易码 MWS X7 会计科目表 XXX 没有在表 T030K 中定义/交易码 VST J2 会计科目表 XXX 没有在表 T030K 中定义
- NVIDIA IC校招笔试题目
- 小程序---仿百思不得姐
- 【差分进化算法】基于适应度-距离-平衡的自适应引导差分进化 (FDB-AGDE) 算法附matlab代码
- 手动建库:按标准快速创建MDB数据库,快速创建Arcgis数据库。
- 所有的华为手机都能用鸿蒙系统吗,华为完全开放鸿蒙,未来所有手机都能用鸿蒙系统?...
热门文章
- gdiplus判断一个点是否在圆弧线上_面试前必读!!!原生JS补给(上)
- Android属性动画赏析,Android源码分析—属性动画的工作原理
- Hello Quartz (第三部分)
- git 学习1--查看全局配置
- 基于JAVA+SpringBoot+Mybatis+MYSQL的校园招聘管理系统
- 安卓开发之开启子线程以及安卓的消息机制原理
- 利用sort对数组快速排序
- 写入和读取外部存储文件
- 1.4.2 solr字段类型--(1.4.2.4)使用Dates(日期)
- SQLServer的三种Recovery Model