众所周知,将数据从 PDF 表格中提取出来是一件很烦人的任务,比如将下图的表格粘贴到 Excel 中,就会是这样!

在 PDF 中很是工整。但是!一旦,复制,然后再粘贴到 Excel 中,就变了模样,真的认不出。这种时候,很多同学想必就是无奈地手动输入了。真的是惨啊,如果数据量少还好,一多简直是要命啊!

但是,这些问题都难不倒机智的学霸君!

是不是很 nice 啊。接下来就让学霸君给打家介绍中这款工具,及其使用。

这款小工具叫做 Tabula,是一个免费的开源小工具,对的,没有看错,是免费的哦。它除了免费,还有一个优点,就是多平台!

除了 PC 用户,还支持 Mac,真的是 Mac 党的福音啊。接下来学霸君会给大家详细介绍如何使用。

首先就是下载啦。解压后,打开软件,会自动打开浏览器。

打开后界面是这样的,这个时候,剩下的几乎都傻瓜操作。

我们可以参照这个步骤来操作。

上传包含数据表的 PDF 文件。

通过单击表格的左上角并将鼠标拖到右下角来选择表格,直到所有数据都包含在阴影选择区域中。

这里有几个注意点,一定要切记!

第 1:不要将标题圈进阴影区域,不然会打乱格式!

第 2:如果表格的表头包含合并单元格,不要圈进阴影区域,可以后续提取完数据再做处理!

随后,点击绿色按钮。

随后会出现一个包含您的数据的窗口。检查数据以确保它看起来正确。如果数据丢失,我们可能需要稍微扩展我们的选择。

选择我们需要的格式,点击下载按钮。

打开文件,我们就可以将数据作为文本文件或电子表格,而不是 PDF 来进行处理!

但是学霸君发现一个问题,就是有时一些符号在 CSV 中会出现乱码,但是不知道是不是因为 Mac 的 Excel 兼容性不是特别好,但是这问题很好解决。

只要选择 Excel 的替换功能,然后将乱码字符统一替换就好!

提取 PDF 表格数据相关推荐

  1. python读取pdf表格数据代码_Python新工具:用三行代码提取PDF表格数据

    原标题:Python新工具:用三行代码提取PDF表格数据 机器之心报道 项目作者:vinayak mehta,参与:一鸣 从 PDF 表格中获取数据是一项痛苦的工作.不久前,一位开发者提供了一个名为 ...

  2. python提取pdf表格数据并保存到excel中

    pdfplumber操作pdf文件 python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者.创建时间.修改时间-)及表格.文本.图片等信息,基本可以满足 ...

  3. python读取pdf表格_Python使用Tabula提取PDF表格数据

    今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...

  4. R语言提取PDF表格数据#简单!!!

    R语言提取PDF表格数据#简单!!! #需要用到pdftables包以及api号,api需要从https://pdftables.com网站注册申请api,一般申请后可以免费转50页pdf insta ...

  5. python tabula 使用方法_Python使用Tabula提取PDF表格数据

    今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...

  6. Python新工具:用三行代码提取PDF表格数据

    点击上方"视学算法",星标公众号 重磅干货,第一时间送达 项目作者:vinayak mehta 参与:一鸣 从 PDF 表格中获取数据是一项痛苦的工作.不久前,一位开发者提供了一个 ...

  7. web怎么用代码创造表格_Python新工具:用三行代码提取PDF表格数据

    机器之心报道 项目作者:vinayak mehta参与:一鸣 从 PDF 表格中获取数据是一项痛苦的工作.不久前,一位开发者提供了一个名为 Camelot 的工具,使用三行代码就能从 PDF 文件中提 ...

  8. python提取pdf表格数据_Python骚操作,提取pdf文件中的表格数据!

    在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报.发行上市公告等.面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取.那么如何才能高效提取出pdf文 ...

  9. python提取pdf表格数据导出到mongodb_python读取mongoDB数据并存入本地excel表格

    from openpyxl import Workbook import pymongo # 读取mongoDB数据库相应的表,每条数据取出数个字段存入一个dict,再将所有的dict存入一个list ...

最新文章

  1. 轻量级目标检测大合集
  2. DOS下查看局域网的ip使用情况,以及ip对应的主机名
  3. 关于Windows8.1更新后Sql Server服务消失的处理办法
  4. vnc数量限制_通过限制视觉效果在Vista上加速VNC
  5. 抓包工具-charles安装过程
  6. 视频技术系列 - 2020年超高清视频技术创新实践
  7. HTML-CSS-JS Prettify报错Node.js was not found 解决方法
  8. “项目运行时出错,无法启动调试。绑定句柄无效”的解决办法
  9. 垂直电商独立站,到底有何优势?
  10. java去除字符串中的特定字符
  11. 比对两个数据库中数据表结构异同
  12. Exchange 2007 SP1 SCR
  13. Qt学习—qt编写定时关机程序
  14. FlashFXP V3.3.9(真正破解) 绿色版
  15. Qt Designer简介
  16. 【CSDN雇主招聘】深信服科技带着高薪岗位JD和公司周边来啦
  17. 爬虫——爬取京东评价
  18. Gamemaker studio2经验(3)——昼夜更替效果实现
  19. 有哪位仁兄可以告诉我,下载软件包的时候出现这种情况是怎么一回事呢?kali虚拟机,希望看见的前辈不吝赐教
  20. java毕业设计融呗智慧金融微资讯移动平台服务端源码+lw文档+mybatis+系统+mysql数据库+调试

热门文章

  1. PCIe功耗管理(三)ASPM机制
  2. 系统发布-APP灰度发布
  3. 内存不够怎么办?试试通过修改虚拟内存缓解内存压力
  4. 区块链python还是c_区块链要学什么编程语言?
  5. EMNLP-21-TEBNER: Domain Specific Named Entity Recognition with Type Expanded Boundary-aware Network
  6. 前后端分离简单项目--蚂蚁博客--简介
  7. 容器限速和流量采集03-golang实现
  8. 面试官不经意的露出微微一笑,我就知道我凉了,大神总是喜欢降维打击
  9. python的作用域和优先级_Python作用域
  10. 盟友说 | 在微信中最爆火的应用 后台数据究竟什么样?