日常办公场合中,除了常规的Excel、Word、PPT等文档外,还有一个不可忽略的文件格式是pdf格式,而对于想从pdf文件中获取信息时,常规方法将变得非常痛苦和麻烦。此篇给大家送一pdf文件提取信息大集合,几乎可涵盖日常pdf文件提取信息的所有场景。

业务场景

在日常工作中,为了保护数据免于被二次利用和为了在文件分发过程中,可以不受其他电脑因为软件版本不同等原因导致文件不能打开或打开格式版面大变形,将要分发的文件,无论是Excel、Word或PPT,转为pdf格式,是一个不错的主意。

在pdf文件中,可以按原样保留所有的信息和排版,用户无论什么版本的OFFICE甚至都不需要安装OFFICE软件,只需安装一个小小的PDF浏览器,即可完成文件的浏览。

但也正因为其简单和不可编辑性,导致需要提取里面的内容时,变得异常复杂。好一点的情形是在转换后,文件仍然保持文本格式,可以复制其中的文本出来。

但大量的pdf文件,仅靠手工去复制也是变得很不现实和效率低下。就算有专门的转换软件,不是需要付费就是只能转换一小部分内容或只能一次性转换一个文件,并且转换后的格式可能也会大变形。

在Excel催化剂的世界中,所有数据都是有利用的价值,包括纯图片的格式。如何能够快速、批量化地从非结构化的数据中提取到想要的信息,是十分考验技术水平的。

而Excel催化剂的初心就是为了将这个技术门槛不断地降低,最好能够降至所有普通Excel用户都能掌握。使用Excel催化剂的辅助,犹如化学反应中添加了催化剂一般,反应速度、性能提升百倍、千倍。

今天很高兴告诉大家,在处理pdf文件中,Excel催化剂能帮到大家很多很多。

实现功能

本想着一个个功能制作,并接连地发布出来,但后来想想,还是要有节制,让相同、相近的功能聚集一起,阅读时更有连贯性,同样也为了纪念第88波这样一个很有寓意的数字。

功能比较多,实现也比较简单,不作详尽展开,后期会做视频录制给大家更为直观和更易学习掌握。

功能入口

功能一:批量PDF转jpg

只需选定pdf文件的路径,即可将其批量转换为jpg格式,此处的转换是pdf文件中一页纸转换一张图片,多页转换多张,最后的图片有后缀递增序号来区分。

此场景可以更进一步保护pdf里的信息,或者用于图片OCR文本识别时的提取,例如上一波用到的百度AI接口可以识别图片文本信息,对于格式规范的如增值税发票、身份证等,提取出来的文本是结构化的文本,即可识别出对应的内容属于什么字段下的内容。

一般的人工智能OCR识别都需要先转换为图像才能调用接口来识别,没有现成的直接对pdf文件的识别。

pdf文件转换后为图片

功能二:批量提取文本

若pdf文件只是Excel、Word、PPT等文件简单另存为pdf格式时,pdf文件会保留着可复制文本的特性,若使用人工智能OCR接口识别不理想,可使用此功能进行直接文本的提取。

人工智能OCR接口一般来说是付费的,需联网的,准确性也没有那么传说和期待地那么高,如果pdf文件为文本型的,建议首先直接使用此提取文本功能,可离线操作,无次数限制,提取效率和性能也高。

例如这样一个WORD直接转换pdf的文件,适合直接提取文本

提取结果,细分到页码和页内行号等信息保留

功能三:批量提取内部图片

有时可能需要从pdf文件中提取其内部的图片文件,而非将整个pdf文件的一页转换为图片,此功能在此特别适用,可将pdf内保存的图片提取出来。

在pdf文档内有图片,只想提取图片

在一个pdf文件中,有多张图片在内时,使用页码数和图片序号区分。

图片提取出来后效果

功能四:批量提取内部表格数据

若pdf文档内含规范的表格数据,而最终仅仅想提取这个表格数据在Excel上进行再处理加工,可尝试使用提取表格功能。

pdf文件内部没有表格的概念,它不过是在一张大画布上按坐标位置画上内容而已,所以有可能提取的准确性有限。

下面以一个测试文件简单讲解下原理。见下图:

提取的pdf源文件

在一个pdf文件上有多个表格,需要手动选择哪个表格内容是要提取的。

在一个pdf文件上有多个表格,点上方列表后可浏览表格结构

此功能分单个文件的提取和多个文件提取两组,当使用多个文件提取时,请务必保证pdf文件的结构是一致的,如提取的表格都是从开头起的第几个表格。并且表格的字段名和字段位置和数量都是一致的,才能提取成功。

测试过程中,直接复制多个文件,肯定一致的文件表格结构

结语

在Excel催化剂的88波功能中,相信也可以一窥在Excel环境下的数据处理的灵活性和效率性之高。也可以看到,从数据到见解之间,是一条多么深的鸿沟,需要许多的技术才能填平这个鸿沟,顺利从原始数据走到我们需要的数据报表、数据洞察的位置。

很高兴,Excel催化剂一直在努力,不断地为大家输送高性能、强大威力的数据处理及分析的能力,让大家走得更轻松,更快地到达数据的终点。

系列文章

一文带你全面认识Excel催化剂系列功能
安装过程详解及安装失败解决方法
第1波-工作表导航
第2波-数字格式设置
第3波-与PowerbiDesktop互通互联
第4波-一大波自定义函数高级应用,重新定义Excel函数的学习和使用方法
第5波-使用DAX查询从PowerbiDeskTop中获取数据源
第6波-导出PowerbiDesktop模型数据字典
第7波-智能选区功能
第8波-快速可视化数据
第9波-数据透视表自动设置
第10波-快速排列工作表图形对象
第11波-快速批量插入图片
第12波-快速生成、读取、导出条形码二维码
第13波-一键生成自由报表
第14波-一键生成零售购物篮分析
第15波-接入AI人工智能NLP自然语言处理
第16波-N多使用场景的多维表转一维表
第17波-批量文件改名、下载、文件夹创建等
第18波-在Excel上也能玩上词云图
第19波-Excel与Sqlserver零门槛交互-查询篇
第20波-Excel与Sqlserver零门槛交互-数据上传篇
第21波-Excel与Sqlserver零门槛交互-执行SQL
第22波-Excel文件类型、密码批量修改,补齐Power短板
第23波-非同一般地批量拆分工作表
第24波-批量发送邮件并指点不同附件不同变量
第25波-小白适用的文本处理功能
第26波-正确的Excel密码管理之道
第27波-Excel工作表设置快捷操作
第28波-工作薄瘦身,安全地减少非必要冗余
第29波-追加中国特色的中文相关自定义函数
第30波-工作表快捷操作(批量创建、命名、排序、工作表目录) 
第31波-数量金额分组凑数功能,财务表哥表姐最爱
第32波-空行空列批量插入和删除
第33波-报表形式数据结构转标准数据源
第34波-提取中国身份证信息、农历日期转换相关功能
第35波-Excel版最全单位换算,从此不用到处百度找答案
第36波-新增序列函数用于生成规律性的循环重复或间隔序列
第37波-把Sqlserver的强大分析函数拿到Excel中用
第38波-比Vlookup更好用的查找引用函数
第39波-DotNet版的正则处理函数
第40波-工资、年终奖个人所得税计算函数
第41波-文件文件夹相关函数
第42波-任意字符指定长度随机函数
第43波-文本处理类函数增强
第44波-可见区域复制粘贴不覆盖隐藏内容
第45波-逻辑判断函数增强
第46波-区域集合函数,超乎所求所想 
第47波-VBA开发者喜爱的加密函数类
第48波-拆分工作薄内工作表,堪称Excel界的单反
第49波-标准数据结构表转报表样式结果
第50波-批量打印、导出PDF、双面打印功能
第51波-聚光灯功能,长宽工作表不看错位使用
第52波-相同内容批量合并单元格,取消合并单元格并填充内容
第53波-无比期待的合并工作薄功能
第54波-批量图片导出,调整大小等
第55波-Excel批注相关的批量删除作者、提取所有批注信息等
第56波-获取Excel对象属性相关自定义函数
第57波-一键生成完全组合的笛卡尔积结果表
第58波-批量生成单选复选框 
第59波-快速调用Windows内部常用工具命令
第60波-数据有效性验证增强版,补足Excel天生不足
第61波-快速锁定解锁单元格及显示隐藏公式
第62波-单元格区域内数据加解密处理,最有效地保护数据方式
第63波-当前选择区域的上下左右平移功能及跳转窗口左上角
第64波-多级数据如省市区联动输入,自由配置永不失效
第65波-数据区域转换指定规格的多行或多列
第66波-数据快速录入,预定义引用数据逐字提示
第67波-父子结构表转换添加辅助信息之子父关系篇
第68波-父子结构表转换之父子关系BOM表拆分篇 
第69波-打造最专业易用的商务图表库
第70波-工作薄外部链接维护管理
第71波-定义名称管理器维护增强
第72波-序列规则下的数据验证有效性好帮手:快速录入窗体辅助录入
第73波-数据转换:单行多项目转多行单项目
第74波-批量排版格式利器,瞬间美化表格
第75波-标签式报表转标准数据源
第76波-图表序列信息维护
第77波-专业图表制作辅助之批量维护序列点颜色及数据标签
第78波-功能大爆炸下如何找到所需的功能
第79波-自动及手动备份功能,比Onedrive还好用
第80波-按条件查找数字,扩展原生查找功能
第81波-指定单元格区域内容及公式填充
第82波-复制粘贴按源区域大小自动扩展收缩目标区域
第83波-遍历文件夹内文件信息特别是图像、音视频等特有信息
第84波-批量提取OUTLOOK邮件附件
[第85波-灵活便捷的批量发送短信功能-使用腾讯云接口](https://www.jianshu.com/p/2bd2d05dc541)
第86波-人工智能之图像OCR文本识别全覆盖

关于Excel催化剂

Excel催化剂先是一微信公众号的名称,后来顺其名称,正式推出了Excel插件,插件将持续性地更新,更新的周期视本人的时间而定争取一周能够上线一个大功能模块。Excel催化剂插件承诺个人用户永久性免费使用!

Excel催化剂插件使用最新的布署技术,实现一次安装,日后所有更新自动更新完成,无需重复关注更新动态,手动下载安装包重新安装,只需一次安装即可随时保持最新版本!

Excel催化剂插件下载链接:https://pan.baidu.com/s/1Iz2_NZJ8v7C9eqhNjdnP3Q

因插件使用VSTO开发技术完成,插件的安装需要电脑满足相关的环境配置才能运行,且需可连接外网的方式实现自动更新机制,若下载安装过程中有任何疑问或需要离线版安装等,尽量不单独私聊询问,加QQ群可高效解决(群内已汇集了VSTO开发、Powerbi技术、Sqlserver商业智能等方面的国内顶尖大牛人物,进群的好处不用多说了)

Excel催化剂插件交流群群二维码

联系作者

公众号

取名催化剂,因Excel本身的强大,并非所有人能够立马享受到,大部分人还是在被Excel软件所虐的阶段,就是头脑里很清晰想达到的效果,而且高手们也已经实现出来,就是自己怎么弄都弄不出来,或者更糟的是还不知道Excel能够做什么而停留在不断地重复、机械、手工地在做着数据,耗费着无数的青春年华岁月。所以催生了是否可以作为一种媒介,让广大的Excel用户们可以瞬间点燃Excel的爆点,无需苦苦地挣扎地没日没夜的技巧学习、高级复杂函数的烧脑,最终走向了从入门到放弃的道路。

最后Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!

关于Excel催化剂作者

姓名:李伟坚,从事数据分析工作多年(BI方向),一名同样在路上的学习者。
服务过行业:零售特别是鞋服类的零售行业,电商(淘宝、天猫、京东、唯品会)

技术路线从一名普通用户,通过Excel软件的学习,从此走向数据世界,非科班IT专业人士。
历经重重难关,终于在数据的道路上达到技术平原期,学习众多的知识不再太吃力,同时也形成了自己的一套数据解决方案(数据采集、数据加工清洗、数据多维建模、数据报表展示等)。

擅长技术领域:Excel等Office家族软件、VBA&VSTO的二次开发、Sqlserver数据库技术、Sqlserver的商业智能BI技术、Powerbi技术、云服务器布署技术等等。

2018年开始职业生涯作了重大调整,从原来的正职工作,转为自由职业者,暂无固定收入,暂对前面道路不太明朗,苦重新回到正职工作,对Excel催化剂的运营和开发必定受到很大的影响(正职工作时间内不可能维护也不可能随便把工作时间内的成果公布于外,工作外的时间也十分有限,因已而立之年,家庭责任重大)。

和广大拥护者一同期盼:Excel催化剂一直能运行下去,我所惠及的群体们能够给予支持(多留言鼓励下、转发下朋友圈推荐、小额打赏下和最重点的可以和所在公司及同行推荐推荐,让我的技术可以在贵司发挥价值,实现双赢(初步设想可以数据顾问的方式或一些小型项目开发的方式合作)。

转载于:https://www.cnblogs.com/ExcelCuiHuaJi/p/11224888.html

个人永久性免费-Excel催化剂功能第88波-批量提取pdf文件信息(图片、表格、文本等)...相关推荐

  1. 个人永久性免费-Excel催化剂功能第103波-批量打开多文件或多链接

    有时简单的东西,却带来许多的便利,为了让大家可以记住并容易找寻到此功能,也将这么简单的功能归为一波,反正已经100+波了,也无需为了凑功能文章而故意罗列一些小功能带忽悠性地让人觉得很强大. 使用场景 ...

  2. 个人永久性免费-Excel催化剂功能第84波-批量提取OUTLOOK邮件附件

    批量操作的事情常常能让人感到十分畅快,区别于一次次的手工的操作,它真正实现了"人工智能"想要的效果,人指挥机器做事情,机器就可以按着人意去操作. 此篇给大家再次送了批量操作一绝活, ...

  3. 个人永久性免费-Excel催化剂功能第105波-批量调整不规范的图形对象到单一单元格内存储...

    在日常制表过程中,一个不得不面对的问题,许多的工作起点是基于其他人加工过的表格,无论自己多大的本领,面对不规范的其他人的制作的表格,经过自己的手,该擦的屁股还是要自己去亲手去擦,而带出来的也只会是一堆 ...

  4. 个人永久性免费-Excel催化剂功能第102波-批量上传本地图片至网络图床(外网可访问)...

    自我突破,在100+功能后,再做有质量的功能,非常不易,相对录制视频这些轻松活,还是按捺不住去写代码,此功能虽小,但功课也做了不少,希望对真正有需要的群体带来一些惊喜. 背景介绍 图床的使用,一般是写 ...

  5. 个人永久性免费-Excel催化剂功能第104波-批量选择多种类型的图形对象

    在Excel的日常操作过程中,选择绝对是一个高频的操作,之前开发过一些快速选择单元格区域的辅助功能,除了单元格区域,Excel强大之处在于,类似PhotoShop那般可以存放多种图形,并且有图层先后顺 ...

  6. 个人永久性免费-Excel催化剂功能第89波-批量多图片转PDF

    前一篇展示了从PDF中提取到有用信息如图片.文本.表格等功能,部分人可能对自己手中的转PDF格式的保护性有所顾虑,此篇从反向角度,提供数据保护作用,让PDF文件的数据保护更彻底,让文本型的PDF文件彻 ...

  7. 个人永久性免费-Excel催化剂功能第17波-批量文件改名、下载、文件夹创建等

    前几天某个网友向我提出催化剂的图片功能是否可以增加导出图片功能,这个功能我一直想不明白为何有必要,图片直接在电脑里设个文件夹维护着不就可以了么?何苦还要把Excel上的图片又重新导出到文件夹中?这个让 ...

  8. 个人永久性免费-Excel催化剂功能第58波-批量生成单选复选框

    插件的最大威力莫过于可以把简单重复的事情批量完全,对日常数据采集或打印报表排版过程中,弄个单选.复选框和用户交互,美观的同时,也能保证到数据采集的准确性,一般来说用原生的方式插入单选.复选框,操作繁琐 ...

  9. 个人永久性免费-Excel催化剂功能第74波-批量排版格式利器,瞬间美化表格

    PPT和WORD的世界,充满着排版的美化操作,在Excel世界同样也需要对表格.图表的美化,此篇带你进入真正的制表专家行列,使用Excel催化剂的格式管理增强功能加上对美感的艺术造诣,对Excel表格 ...

最新文章

  1. Django 模板继承4.2
  2. 基于Spring的Web缓存
  3. 在预加载新闻时,怎么去掉初始化内容的显示尴尬?
  4. Spring MVC总结
  5. c语言单链表中头结点的创立,一个关于C语言链表头结点的问题
  6. excel表头_Spring Boot实现导出Excel功能
  7. php 企业邮箱,PHPMailer可能被全球邮(企业邮箱提供)拉黑
  8. 新一批国产游戏版号下发:共53款 腾讯、网易在列
  9. sql server 左右连接 内外连接
  10. 拓端tecdat|R语言中的prophet预测时间序列数据模型
  11. cad2020打印样式放在哪个文件夹_CAD图形打印相关问题!
  12. eyoucms目录结构
  13. 微型计算机忘记密码,一种基于微型计算机的密码锁的制作方法
  14. Java实现 蓝桥杯 算法提高 求arccos值
  15. 整型变量和整型常量呀
  16. 近邻成分分析(NCA)算法
  17. php 处理eml,PHP读取、解析eml文件及生成网页详解
  18. 【历史上的今天】6 月 30 日:冯·诺依曼发表第一份草案;九十年代末的半导体大战;CBS 收购 CNET
  19. 采购订单税码检查增强(badi)
  20. Android开发如何调用百度翻译api

热门文章

  1. 计算机软件创新,利川计算机软件学院_创新学校
  2. 2019新风口:区块链+Podcast
  3. echarts 日历热度图设置 calendar
  4. simens MC55
  5. 痛自己扛,泪自己擦。
  6. hd2 - 如何刷wm6.5
  7. 机动车c1科三考试语言灯光,科目三考试灯光操作,学会技巧不用死记硬背!
  8. 渗透php网站步骤,渗透DVBBS php网站的全程记录 -电脑资料
  9. Cyclone IV 外接ddr2(一)
  10. 智能合约审计之权限校验错误