Python读取pdf无框线表格_Python将PDF数据解析为表格形式
这听起来像是有了文本在页面上的位置将大大帮助你。我建议使用PyMuPDF来提取包含位置数据的文本,这样就可以找到一行。在
下面是一个代码示例,用于获取带有位置的*.csv文本文件。希望这能让您开始使用Python挖掘信息。在#!python3.3
""" Use PyMuPDF to extract text to *.csv file. """
import csv
import json
import os
import sys
import fitz
assert len(sys.argv) == 2, 'Pass file name as parameter'
srcfilename = sys.argv[1]
assert os.path.isfile(srcfilename), 'File {} does not exist'.format(srcfilename)
dstfilename = '{}.csv'.format(srcfilename)
with open(dstfilename, 'w', encoding='utf-8', errors='ignore', newline='') as dstfile:
writer = csv.writer(dstfile)
writer.writerow([
'PAGE',
'X1',
'Y1',
'X2',
'Y2',
'TEXT',
])
document = fitz.open(srcfilename)
for page_number in range(document.pageCount):
text_dict = json.loads(document.getPageText(page_number, output='json'))
for block in text_dict['blocks']:
if block['type'] != 'text':
continue
for line in block['lines']:
for span in line['spans']:
writer.writerow([
page_number,
span['bbox'][0],
span['bbox'][1],
span['bbox'][2],
span['bbox'][3],
span['text'],
])
document.close()
我写了一些代码来挖掘您的PDF文件,并将其放入格式更好的*.csv文件中:
^{pr2}$
你可能要做更多的工作才能得到你想要的东西。在
Python读取pdf无框线表格_Python将PDF数据解析为表格形式相关推荐
- python如何读取数据并输出为表格_Python 爬取数据并导出表格
从网站请求数据 要爬取数据,首先得用到Python的库,这里我直接选择了requests,其他库没有对比,也没有去了解,暂时不做讨论,以后如果有深入了解再补充吧. 安装requests pip ins ...
- python怎么读文件里的某一行-python读取txt文件并取其某一列数据的示例
菜鸟笔记 首先读取的txt文件如下: AAAAF110 0003E818 0003E1FC 0003E770 0003FFFC 90 AAAAF110 0003E824 0003E208 0003E7 ...
- python读取指定路径txt文件-python读取txt文件并取其某一列数据的示例
菜鸟笔记 首先读取的txt文件如下: AAAAF110 0003E818 0003E1FC 0003E770 0003FFFC 90 AAAAF110 0003E824 0003E208 0003E7 ...
- Python通过Django搭建网站执行Lua脚本 (实现数据解析)
目录 Python通过Django搭建网站执行Lua脚本 (实现数据解析) 一.问题背景和解决 二.执行Lua效果预览 三.主要代码解析: translate.py LuaParser.lua Bin ...
- beautifulsoup解析动态页面div未展开_Python爬虫 | 0xb 数据解析:PyQuery库
(给抠腚男孩加星标,提升Python.Android技能) 作者:CoderPig 本节带来数据解析部分最后一个解析库PyQuery,它的API和前端著名框架jQuery相似,名字由此而来.如果你有前 ...
- xlsx表格怎么筛选重复数据_excel表格如何筛选重复数据 在Excel表格的两列数据中提取不重复值的四种方法...
excel表格如何筛选重复数据 在Excel表格的两列数据中提取不重复值的四种方法,最近到了季度汇报的时候,掌握一手excel技能在此刻显得多么重要,为了是你的excel看起来更高大上,今天教大家设置 ...
- python pdf 数据转excel 表格_python实现PDF中表格转化为Excel的方法
这几天想统计一下<中国人文社会科学期刊 AMI 综合评价报告(2018 年):A 刊评价报告>中的期刊,但是只找到了该报告的PDF版,对于表格的编辑不太方便,于是想到用Python将表格转 ...
- python 读取excel文件 效率 时间 格式_python读取Excel文件中的时间数据
在使用python读取Excel文件中的时间格式,碰到的时间格式转换问题: 读取这样的表格: 输出这样的数据结果: 然而这样的结果却不是我们想要的,我们需要的是这样的结果: 1.安装python官方库 ...
- python读取邮件发送日期和时间_Python读取指定日期邮件的实例
背景:9月份有部分数据缺失,这部分数据在邮箱里,需要重新拉取,但是每天几百封邮件,总共有6.7万封邮件,使用stat()和retr(which)结合遍历很 耗时 基于如上背景,初始大致思路为: 使用二 ...
- python读取多个文件夹图片_python或C++读取指定文件夹下的所有图片
本文实例为大家分享了python或C++读取指定文件夹下的所有图片,供大家参考,具体内容如下 1.python读取指定文件夹下的所有图片路径和图片文件名 import cv2 from os impo ...
最新文章
- 宝塔服务器环境好不好_服务器环境怎么搭建?(宝塔环境搭建教程)
- framebuffer小程序显示3个矩形 测试
- Spark生态顶级项目汇总
- Ubuntu上sublime配置nodejs运行环境
- 开发小技巧之:unicode的排序和正则匹配
- 网博士自助建站系统_自助建站:自助建站到底好还是不好?
- java常用方法名_Java语言常见名称有哪些
- linux的常用的软件,Linux常用的软件和命令
- Diskgenius硬盘处理软件
- 在C/C++中使用输入输出流
- java单例模式 实例_java 单例模式的实例详解
- 基于单片机的智能数字电子秤设计
- 英语长难句之分裂结构-学习笔记
- [分层最短路板子] 洛谷 P4568
- 《谁动了我的奶酪》读后感 他人感悟
- 手写表单及h5表单验证举例
- Linux基础理论简述
- 人脸识别“SphereFace: Deep Hypersphere Embedding for Face Recognition”
- Android SpringAnimation 弹簧动画
- Express实现生成二维码接口
热门文章
- k3 梅林固件设置_OpenWrt中,旁路由的设置与使用
- 美国 GLOBAL DOSSIER全球专利案卷系统使用方法,有图说明
- Aspen ONE Suite 11.0 软件下载及其安装教程
- Python压缩图片到指定大小
- 【编译打包】btsync-1.2.82-beta.el6.src.rpm
- 计算机需要那些高中数学知识点,高中必考数学知识点归纳整理
- 记录日常收支,查看每个账户收支明细
- 单点登录原理及实现方式
- 步进电机选型及扭矩的计算(粗略计算)
- tcl语言读取文件一行_TCL语言笔记:TCL中的列表操作