最近做的项目要把PPT中的文本提取出来做其他任务,现把PPT提取文本的过程摘出来做个记录,主要是组合shape需要通过迭代的方式进行解析(iter_shape函数)

import pptxdef iter_shape(shape, text_shapes):if type(shape) == pptx.shapes.group.GroupShape:for sshape in shape.shapes:iter_shape(sshape, text_shapes)else:if shape.has_text_frame:text_shapes.append(shape)# pptx中段落文本
def pptx_paragraph_text(file):text_shapes = []shapes = [shape for slide in file.slides for shape in slide.shapes]for shape in shapes:iter_shape(shape, text_shapes )paragraphs = [paragraph for shape in text_shapes \for paragraph in shape.text_frame.paragraphs]return [p.text for p in paragraphs]# pptx中表格翻译def pptx_table_text(file):shapes = [shape for slide in file.slides for shape in slide.shapes if shape.has_table]cells = [cell for shape in shapes for cell in shape.table.iter_cells() if cell.text_frame]return [cell.text for cell in cells]def pptx_file_translate(ppt_file):# 打开PPTfile = pptx.Presentation(ppt_file)# 段落文本para_text = pptx_paragraph_text(file)# 表格文本table_text = pptx_table_text(file)return para_text, table_text

python pptx文本提取相关推荐

  1. python tensorflow 文本提取_如何在tensorflow中保存文本分类模型?

    阅读tensorflow documentation进行文本分类时,我在下面建立了一个脚本,用于训练文本分类模型(正/负).有一件事我不确定.如何保存模型以便以后重用?另外,如何测试我拥有的输入测试集 ...

  2. python自动发邮件富文本_django 实现后台从富文本提取纯文本

    前言: 很多时候我们都会用富文本,比如说在版权区.博客文章编辑时等等.但是如果我们要做一个搜索的功能,去从富文本中查找关键字,就需要将富文本中的文本了.但是 django 并没有专门函数去做.这个时候 ...

  3. Python使用pdfminer3k提取PDF文件中的文本

    推荐教材: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年12月第11次印刷,山东省一流 ...

  4. python中文模糊关键词提取_用Python给你的文本提取关键词

     对代码.编程感兴趣的可以关注「老K玩代码」公众号和我交流!分享代码.经验.项目和资讯 用Python给你的文本提取关键词 关键词提取是自然语言处理中常见的业务模块; 要实现关键词提取,Python ...

  5. python 读取特定一段文本_python提取文本内容 python读取文本每行指定内容

    用"python"怎么提取文件里的指定内容?原来这些年,他痊愈的只是外表,有一种伤,它深入骨髓,在人看不见的地方肆虐. python读取文件内容的方法: 一.最方便的方法是一次性读 ...

  6. python 英文文本中的关键词提取

    python 英文关键词提取详细教程: https://opensourcelibs.com/lib/pytextrank # To install from PyPi: 慢就加镜像 -i pytho ...

  7. python nlp 句子提取_Python可以把一个文本里部分词语相同的句子提取出来吗?

    谢邀,题主的这个问题与具体的编程语言无关.涉及的知识点或者说技术点为NLP(自然语言处理).不过由于Python处理文本内容的便捷性,人们常常会用Python来做NLP. 如果你不想了解原理,直接使用 ...

  8. Python pptx模块

    安装pptx pip install python-pptx Python pptx模块是一个Python库,用于创建和更新Microsoft PowerPoint (.pptx)文件.该模块允许开发 ...

  9. python 图片 文本 矫正

    python 图片 文本 矫正 代码 # -*- coding: UTF-8 -*- import numpy as np import cv2 import os ## 图片旋转 def rotat ...

最新文章

  1. P2216 理想的正方形 单调队列 (二维)
  2. SAP 财务模块 FI-TV 差旅管理
  3. php无刷新分页插件,jQuery插件jPaginate实现无刷新分页_jquery
  4. Web认证及API的 使用TOKEN的一些思考
  5. e2fsck -y 故障_MC2-XWHM-Y
  6. 2013与2014之流水
  7. JDBC连接数据库(一)
  8. 图像目标检测(Object Detection)原理与实现(一)
  9. 设置PYTHONIOENCODING
  10. linux 正则表达式和通配符
  11. 我的世界java版联机不稳定_我的世界:你一定不会相信,时隔2年,网易这次真的“更新”了...
  12. IntelliJ IDEA 打包Maven 构建的 Java 项目
  13. R语言自然语言处理:关键词提取(TF-IDF)
  14. 蚂蚁金服“定损宝”现身AI顶级会议NeurIPS
  15. MATLAB2016a+eeglab安装
  16. Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting
  17. 3dMax 闪退未保存的解决方案
  18. Excel表格之道 学习笔记(二)
  19. 指数爆炸问题的基本思路
  20. 那个跑外业的同事开始学习考测绘师了

热门文章

  1. 阿里云免费的ssl证书到期怎么续费
  2. PEAP-MSCHAPV2
  3. java get set写法_java get set方法的使用
  4. Python_argparse.Argumentparser()
  5. 什么是云计算, 什么是 IaaS, PaaS, SaaS
  6. linux – signal 信号列表
  7. (个人)VR实时交互的太极拳学习系统创新实训第一周(2)
  8. 通信业的双11来了!充话费、办宽带、买手机每年这时候最划算
  9. 端午节送点话费给大家,千万别错过!
  10. 为Windows11安装最新永久授权Office 2021