PDF转换解析工具—XPDF
最近一直在研究PDF的解析,发现有很多的软件或SDK可以 预处理。这里 预处理的意思仅仅是转换一种存储格式,还需要我们进一步的结构化处理。现在介绍几种预处理方案:
第一、使用OCR软件识别。
这个做的最好的,非FineReader莫属,自己下载下来体会一番(软件需要激活)。
第二、使用现成的SDK。
基于java的SDK有:pdfbox、itext等
基于python的SDK有:pdfMiner、pyPdf等
还有其他工具,比如pdf2htmlex、XPDF等
这次只对XPDF工具进行介绍,因为在转换txt方面稍好一点。其他工具有空再介绍哈。
1、XPDF官网介绍
宣言:Xpdf: A PDF Viewer for X,官网地址:xpdf home
2、通过XPDF可以做什么
从它的exe文件名称定义可以看出,包含pdftohtml、pdftotext、pdftopng、pdftops等。
3、XPDF运行环境初始化
- 下载XPDF库,支持window32或64,解压。我用的是xpdfbin-win-3.04,点吧
- 下载XPDF语言库,必须支持简体中文,解压。我用的是xpdf-chinese-simplified,点吧
- 定义一个XPDF安装目录(虽然是免安装,暂且这么说),比如:XPDF_HOME=D:/xpdf/
- 把xpdfbin-win-3.04\bin64下所有exe文件 copy 到 XPDF_HOME下(OS是64的)
- 把xpdfbin-win-3.04下的这些文件 copy 到 XPDF_HOME下
- 把xpdfbin-win-3.04\doc下的sample-xpdfrc文件 copy 到 XPDF_HOME下
- 把xpdf-chinese-simplified文件夹 copy 到 XPDF_HOME下
- 准备就绪,开始修改配置
- 打开xpdf-chinese-simplified/add-to-xpdfrc文件,copy所有内容 到 XPDF_HOME/sample-xpdfrc文件最后并修改路径。修改后的结果是这样的:
#----- begin Chinese Simplified support package (2011-sep-02)cidToUnicode Adobe-GB1 XPDF_HOME/xpdf-chinese-simplified/Adobe-GB1.cidToUnicodeunicodeMap ISO-2022-CN XPDF_HOME/xpdf-chinese-simplified/ISO-2022-CN.unicodeMapunicodeMap EUC-CN XPDF_HOME/xpdf-chinese-simplified/EUC-CN.unicodeMapunicodeMap GBK XPDF_HOME/xpdf-chinese-simplified/GBK.unicodeMapcMapDir Adobe-GB1 XPDF_HOME/xpdf-chinese-simplified/CMaptoUnicodeDir XPDF_HOME/xpdf-chinese-simplified/CMap#fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf#----- end Chinese Simplified support package
最后把sample-xpdfrc文件名改为xpdfrc,这么做就支持简体中文识别啦~
4、XPDF的使用入门
第一种:在dos下执行exe文件,先cd到XPDF_HOME目录,然后执行pdftotext.exe命令。
比如:XPDF_HOME/pdftotext.exe [options] sourcefile[原始pdf路径] targetfile[转换后txt文件路径],回车看文件是否生成。
其中options包含很多设置,比如编码(GBK),是否保持pdf原有布局(-layout)等。
我透露一下自己测试用的命令:pdftotext.exe -layout D:/test.pdf D:/test.txt
第二种:通过java实现转换,核心代码简介:
String[] cmd = getCmd(new File(targetfile), isLayout); Runtime.getRuntime().exec(cmd);
5、转换前后比较
PDF转换解析工具—XPDF相关推荐
- JAVA实现 PDF转换 常用工具类(html转PDF、PDF添加页码、PDF文件下载、PDF添加印章或者水印)
JAVA实现 PDF转换 常用工具类(html转PDF.PDF添加页码.PDF文件下载.PDF添加印章或者水印)可直接使用 package com.bestvike.util; import com. ...
- 全网最好用的图文识别、证件扫描、PDF转换等工具,已解锁永久会员!
扫描君APP破姐版本 扫描君是一款非常好用的文字识别软件.无论是在工作中,还是在日常生活中,我们经常会遇到将一些纸质材料上的文字内容转换成电子文档进行编辑的需求. 今天Aliwen给大家带来的是会员永 ...
- 7款可以实现 PDF 转换 Word 格式的免费在线工具
7款免费实用的PDF转换成Word文档在线工具网站,值得你收藏!PDF to Word (doc/docx) [ 多媒体类 , 推荐网站 ] 141,388 184 39 我们刚刚给大家推荐过一 ...
- PDF文件转换格式工具
PDF文件想要转换格式是需要用到转换器的,PDF转换器,我们以奥凯丰 PDF转换大师为例,展示PDF转换格式工具. [PDF转换大师]转为word_excel_ppt_txt_jpg等格式-奥凯丰ok ...
- 除PDF转换,写论文还需PDF编辑?迅读PDF大师告诉你答案
论文是毕业的一道门槛,无合格的毕业论文,就意味着无法获得学位证书.现在已经是1月,相信很多大学生,尤其是研究生,已经开始筹备毕业论文了.提起写论文,没有人会不参考知网,而知网上的历史文献基本都是PDF ...
- PDF转换Word如何操作?用迅读PDF转换器,任意互转
PDF格式的文件应用越来越广泛,无论是日常办公.教学,还是闲暇时电子书阅读,都需要用到专业的PDF软件.其中,除了PDF文件阅读和编辑,相信大家用的比较频繁的就是PDF转换Word,尤其是在校大学生, ...
- 如何在线免费PDF转换PPT
PDF转换成PPT文件有很多第三方软件是要收费的,特别是页数比较多的情况下.那么,怎么在线免费pdf转ppt,很多人不知道如何在线免费进行PDF文件转换成PPT文件,一起来看下吧. 1.找到speed ...
- 在线PDF转换PPT,不用安装软件
PDF转换成PPT文件有很多第三方软件是要收费的,特别是页数比较多的情况下.那么,怎么在线免费pdf转ppt,很多人不知道如何在线免费进行PDF文件转换成PPT文件,一起来看下吧. 1.找到speed ...
- 如何将PDF转换Word?迅读PDF转换器,教你一招速成
开工后,职场打工人又开始忙碌起来.刚毕业不久的小李,可谓"开工不顺",上班第一天就被要求整理产品资料,而且都是PDF格式的.这可难倒小李了,以前只需点击文件就进入Word编辑,现在 ...
最新文章
- python代码案例详解-Python之入门基础字典案例详解,新手必学
- 计算机的c盘是硬盘吗,c盘是硬盘吗
- 申请信用贷款需要哪些条件?
- Centos/RHEL上查看主板型号
- 线程的语法 (event,重要)
- 快来,这里有23种设计模式的Go语言实现
- 重磅发布!36氪中国新基建之王「大数据领域」TOP50企业揭晓
- 以太坊上DeFi协议总锁仓量首次突破350亿美元
- C3P0连接池的配置和使用
- java pcm to wav_Java音频转换:PCM格式转WAV格式
- 仅供自用,大学三年收藏夹
- python课程设计的心得体会_数据库课程设计心得体会精选篇
- 如何修复VUM在客户端启用之后报数据库连接失败的问题
- 2009-03-13读书记录:《Enjoying Web Development with Wickte》三章心得
- xy坐标正负方向_xy坐标分别代表什么
- crc16的c语言函数 计算ccitt_求一个C语言实现的CRC16/CCITT-FALSE校验码函数
- 对1bit的脉冲信号进行展宽,转为32bit位宽,并产生有效信号
- [机器学习] - 岭回归与Lasso回归
- DANet Daul Attention位置和通道注意力(PAM&CAM)keras实现
- 7-1 汽车加油问题