这听起来像是有了文本在页面上的位置将大大帮助你。我建议使用PyMuPDF来提取包含位置数据的文本,这样就可以找到一行。在

下面是一个代码示例,用于获取带有位置的*.csv文本文件。希望这能让您开始使用Python挖掘信息。在#!python3.3

""" Use PyMuPDF to extract text to *.csv file. """

import csv

import json

import os

import sys

import fitz

assert len(sys.argv) == 2, 'Pass file name as parameter'

srcfilename = sys.argv[1]

assert os.path.isfile(srcfilename), 'File {} does not exist'.format(srcfilename)

dstfilename = '{}.csv'.format(srcfilename)

with open(dstfilename, 'w', encoding='utf-8', errors='ignore', newline='') as dstfile:

writer = csv.writer(dstfile)

writer.writerow([

'PAGE',

'X1',

'Y1',

'X2',

'Y2',

'TEXT',

])

document = fitz.open(srcfilename)

for page_number in range(document.pageCount):

text_dict = json.loads(document.getPageText(page_number, output='json'))

for block in text_dict['blocks']:

if block['type'] != 'text':

continue

for line in block['lines']:

for span in line['spans']:

writer.writerow([

page_number,

span['bbox'][0],

span['bbox'][1],

span['bbox'][2],

span['bbox'][3],

span['text'],

])

document.close()

我写了一些代码来挖掘您的PDF文件,并将其放入格式更好的*.csv文件中:

^{pr2}$

你可能要做更多的工作才能得到你想要的东西。在

Python读取pdf无框线表格_Python将PDF数据解析为表格形式相关推荐

  1. python如何读取数据并输出为表格_Python 爬取数据并导出表格

    从网站请求数据 要爬取数据,首先得用到Python的库,这里我直接选择了requests,其他库没有对比,也没有去了解,暂时不做讨论,以后如果有深入了解再补充吧. 安装requests pip ins ...

  2. python怎么读文件里的某一行-python读取txt文件并取其某一列数据的示例

    菜鸟笔记 首先读取的txt文件如下: AAAAF110 0003E818 0003E1FC 0003E770 0003FFFC 90 AAAAF110 0003E824 0003E208 0003E7 ...

  3. python读取指定路径txt文件-python读取txt文件并取其某一列数据的示例

    菜鸟笔记 首先读取的txt文件如下: AAAAF110 0003E818 0003E1FC 0003E770 0003FFFC 90 AAAAF110 0003E824 0003E208 0003E7 ...

  4. Python通过Django搭建网站执行Lua脚本 (实现数据解析)

    目录 Python通过Django搭建网站执行Lua脚本 (实现数据解析) 一.问题背景和解决 二.执行Lua效果预览 三.主要代码解析: translate.py LuaParser.lua Bin ...

  5. beautifulsoup解析动态页面div未展开_Python爬虫 | 0xb 数据解析:PyQuery库

    (给抠腚男孩加星标,提升Python.Android技能) 作者:CoderPig 本节带来数据解析部分最后一个解析库PyQuery,它的API和前端著名框架jQuery相似,名字由此而来.如果你有前 ...

  6. xlsx表格怎么筛选重复数据_excel表格如何筛选重复数据 在Excel表格的两列数据中提取不重复值的四种方法...

    excel表格如何筛选重复数据 在Excel表格的两列数据中提取不重复值的四种方法,最近到了季度汇报的时候,掌握一手excel技能在此刻显得多么重要,为了是你的excel看起来更高大上,今天教大家设置 ...

  7. python pdf 数据转excel 表格_python实现PDF中表格转化为Excel的方法

    这几天想统计一下<中国人文社会科学期刊 AMI 综合评价报告(2018 年):A 刊评价报告>中的期刊,但是只找到了该报告的PDF版,对于表格的编辑不太方便,于是想到用Python将表格转 ...

  8. python 读取excel文件 效率 时间 格式_python读取Excel文件中的时间数据

    在使用python读取Excel文件中的时间格式,碰到的时间格式转换问题: 读取这样的表格: 输出这样的数据结果: 然而这样的结果却不是我们想要的,我们需要的是这样的结果: 1.安装python官方库 ...

  9. python读取邮件发送日期和时间_Python读取指定日期邮件的实例

    背景:9月份有部分数据缺失,这部分数据在邮箱里,需要重新拉取,但是每天几百封邮件,总共有6.7万封邮件,使用stat()和retr(which)结合遍历很 耗时 基于如上背景,初始大致思路为: 使用二 ...

  10. python读取多个文件夹图片_python或C++读取指定文件夹下的所有图片

    本文实例为大家分享了python或C++读取指定文件夹下的所有图片,供大家参考,具体内容如下 1.python读取指定文件夹下的所有图片路径和图片文件名 import cv2 from os impo ...

最新文章

  1. 宝塔服务器环境好不好_服务器环境怎么搭建?(宝塔环境搭建教程)
  2. framebuffer小程序显示3个矩形 测试
  3. Spark生态顶级项目汇总
  4. Ubuntu上sublime配置nodejs运行环境
  5. 开发小技巧之:unicode的排序和正则匹配
  6. 网博士自助建站系统_自助建站:自助建站到底好还是不好?
  7. java常用方法名_Java语言常见名称有哪些
  8. linux的常用的软件,Linux常用的软件和命令
  9. Diskgenius硬盘处理软件
  10. 在C/C++中使用输入输出流
  11. java单例模式 实例_java 单例模式的实例详解
  12. 基于单片机的智能数字电子秤设计
  13. 英语长难句之分裂结构-学习笔记
  14. [分层最短路板子] 洛谷 P4568
  15. 《谁动了我的奶酪》读后感 他人感悟
  16. 手写表单及h5表单验证举例
  17. Linux基础理论简述
  18. 人脸识别“SphereFace: Deep Hypersphere Embedding for Face Recognition”
  19. Android SpringAnimation 弹簧动画
  20. Express实现生成二维码接口

热门文章

  1. k3 梅林固件设置_OpenWrt中,旁路由的设置与使用
  2. 美国 GLOBAL DOSSIER全球专利案卷系统使用方法,有图说明
  3. Aspen ONE Suite 11.0 软件下载及其安装教程
  4. Python压缩图片到指定大小
  5. 【编译打包】btsync-1.2.82-beta.el6.src.rpm
  6. 计算机需要那些高中数学知识点,高中必考数学知识点归纳整理
  7. 记录日常收支,查看每个账户收支明细
  8. 单点登录原理及实现方式
  9. 步进电机选型及扭矩的计算(粗略计算)
  10. tcl语言读取文件一行_TCL语言笔记:TCL中的列表操作