提取pdf文件中的表格数据原文链接

https://www.analyticsvidhya.com/blog/2020/08/how-to-extract-tabular-data-from-pdf-document-using-camelot-in-python/另外还参考了这篇文章

https://camelot-py.readthedocs.io/en/master/

实现提取pdf文档中的表格数据需要使用camelot模块

这个模块可以直接使用pip进行安装pip install "camelot-py[cv]"

用到的pdf示例文件可以直接在原文链接处下载

http://gstcouncil.gov.in/sites/default/files/gst-revenue-collection-march2020.pdf

第一步是读入pdf文件import camelot

tables = camelot.read_pdf('gst-revenue-collection-march2020.pdf', flavor='stream', pages='0-3')

这里flavor参数的作用暂时还不知道

如果表格跨页需要指定pages参数tables

tables[2]

tables[2].df

tables可以返回解析获得的表格数量

tables[2]获取指定的表格

tables[2].df将表格数据转换成数据框

pandas 中两个数据框按照行合并需要用到append()方法aa = {"A":[1,2,3],"B":[4,5,6]}

bb = {"A":[4],"B":[7]}

import pandas as pd

a = pd.DataFrame(aa)

b = pd.DataFrame(bb)

a.append(b)

SVG格式转换为pdf格式原文链接

https://www.tutorialexample.com/a-simple-guide-to-python-convert-svg-to-pdf-with-svglib-python-tutorial/

实现这个功能需要使用到的是svglib这个库,直接使用pip安装pip install svglib

svg转换为pdf格式代码from svglib.svglib import svg2rlg

from reportlab.graphics import renderPDF

drawing = svg2rlg("home.svg")

renderPDF.drawToFile(drawing, "file.pdf")

欢迎大家关注我的公众号

python svg2rlg_python提取pdf文档中的表格数据、svg格式转换为pdf相关推荐

  1. aip格式转化为pdf_python提取pdf文档中的表格数据、svg格式转换为pdf

    提取pdf文件中的表格数据原文链接 https://www.analyticsvidhya.com/blog/2020/08/how-to-extract-tabular-data-from-pdf- ...

  2. 办公室小姐姐的福利!用Python批量提取word文档中的表格和图片内容

    点上方"菜鸟学Python",选择"星标" 第491篇原创干货,第一时间送达 最近有许多小伙伴想要一些自动化办公的福利小程序,今天就满足大家的需求.日常的办公过 ...

  3. python合并word表格单元格_Python实战009:读取Word文档中的表格数据及表格合并问题解决...

    同事最近被安排整理资料,主要工作室将文档中的表格数据提取出来并整理层Excel表格供我们FII刀具商城进行资料维护.由于刀具的种类繁多且规格无数,所以要处理的数据量相当的庞大.人工核对整理既费时又费力 ...

  4. Python3-word文档操作(五):利用python修改word文档中的表格数据

    1. 简介: 本篇继续学习python操作word文档的相关知识.本篇主要学习: 1)如何获取一个已经存在文档中的表格的内容: 2)如何修改一个已经存在文档中的表格的内容: 2. 获取word文档中的 ...

  5. python批量提取word文档中的图片(含图片格式转换和GUI)

    作者:小小明 文章目录 doc格式批量转为docx 批量提取docx文档的图片 批量图片格式转换 完整代码 GUI图形化工具开发 打包exe 给GUI加入进度条 日常工作中,领导要求你将一份 Word ...

  6. 从多个pdf文档中截取部分区域拼接成一个pdf文档

    提取合并多个pdf页面中的子区域,形成一个没有分页符的页面. 输入input:多个pdf的Rect区域 areas in pdf 输出output:一页(只是一页)完整的pdf文档 a page of ...

  7. C# 如何在PDF文档中创建表格

    表格能够直观的传达数据信息,使信息显得条理化,便于阅读同时也利于管理.那在PDF类型的文档中如何来添加表格并且对表格进行格式化操作呢?使用常规方法直接在PDF中添加表格行不通,那我们可以在借助第三方组 ...

  8. 使用Python批量提取Word文档中的图片

    1.导入需要的包 import zipfile import shuti 2.设置文档路径和图片路径 ,并用zipfile读取Word文件 doc_path = './a.docx' #在这里更换你想 ...

  9. 如何将word文档中的表格数据快速转化成sql语句添加到数据库中?——正则表达式

    当我们得到word文档的数据的时候,想要在数据库建成相应的表,原始人(曾经的我)选择一条条ctrl C V 复制粘贴,耗时且繁琐,毫无技术性(不高级). java情报局研究中心的组长告诉我,使用 id ...

最新文章

  1. Volume是如何工作的
  2. 【Ionic+AngularJS 开发】之『个人日常管理』App(二)
  3. 《Android的设计与实现:卷I》——第2章 框架基础JNI
  4. 用存储过程生成记录编号
  5. 怎么将零件整合到一起_Fraunhofer ILT用于大型零件3D打印的“边飞行边加工”的LPBF概念...
  6. 海南医养康养健康文旅-健康中国·万祥军:谋定国际化破题
  7. 掌握这些 NumPy Pandas 方法,快速提升数据处理效率!
  8. mysql中创建唯一索引的关键字_mysql中唯一索引的关键字是什么
  9. php ip获取邮政编码,php获取指定(访客)IP所有信息(地址、邮政编码、国家、经纬度等)的方法...
  10. 圣诞节手绘插画素材,点燃节日温情
  11. kotlin埋点_GitHub - shajinyang/ilvdo-event-track: 埋点框架
  12. mysql5.5安装最后一步一直无反应_吉林电泳型材安装
  13. 745. 前缀和后缀搜索(每日一难phase2--day27)
  14. python安装百度aip_Python人工智能-基于百度AI接口
  15. 基于Django框架的零食商城系统之Python毕设选题推荐
  16. 项目实战:基于 TCP 的局域网内高性能文件传输系统设计与实现
  17. JavaWeb教务管理系统(选课评教,框架SpringMvc+Hibernate)
  18. 涉及计算机程序的发明专利申请的解读
  19. 如何判断是不是个maven项目
  20. FPGA学习日志——一位全加器full_adder

热门文章

  1. “人生苦短,我用Python“——python基础<1>
  2. css图片放大功能,且不溢出包裹盒子
  3. 难忘赤名莉香的一些话
  4. 遗传图谱+转录组揭示梨赤褐色果皮细胞程序性死亡和周皮发育的开关基因
  5. 军品研发过程及文件要求
  6. 葵花宝典--HDFS高可用HA
  7. strlen、length、size、sizeof的用法与区别
  8. 环保监测平台为什么弃用MySQL,而选择时序数据库?
  9. advance vocabulary
  10. Your host does not meet minimum requirements to run VMware workstation with hyper-v or device/creden