前言

PDF 文件是一种非常常用的文件格式,在企业信息系统存储和交换信息中普遍使用。然而从 PDF 文档中获取表格段落等文档内容却是一件非常麻烦的事情,这是因为pdf的设计初衷是基于文档显示的,为了能保证在不同平台中完全一致的视觉效果,文档以页为单位存储的是一系列包含线条、字符、图片等基本元素的绘图指令。基于这个原因,pdf文档不能像word文档一样直接获取表格和段落,如要获取结构化的文档内容,需要在获取字符、线条等图形及坐标基础上按阅读顺序把含线条、字符、图片等基本元素拼接成文档,过程十分复杂,而且需要不断优化才能达到满意的效果。

PDFBox是apache基金会旗下的一个为java开发人员读取和创建PDF文档而准备的纯Java开源类库。通过PDFBox可以轻松解析PDF文档并逐页获取图形元素及坐标。

pdftranspro是基于PDFBox的一款专业 pdf 文本内容提取软件,支持windows和linux平台,经过数年的持续改进其内容提取能力已经达到令人惊艳的地步,不仅能对跨页、跨栏的段落或表格进行合并处理,精确还原整篇文档内的段落和表格,而且可以同时输出html、xml、json、txt 等 4 种格式,方便用户高效获取 pdf 文档内的精确信息或数据。pdftranspro也提供 pdf文档截取合并等实用的 pdf 编辑功能。其个人版提供操作界面,可以一键处理单个pdf文档,个人用户免费使用;其收费版可以通过控制台方式或SDK方式集成pdf转换功能,需取得licence文件才能使用,用户可免费试用。

各版本及功能

版本

功能

平台

应用场景

免费版 以界面方式执行单个 pdf 文档转换、截取或合并 pdf 文档。 Windows/linux  适用于手动方式对 pdf 文档进行转换、截取、合并等。个人用户免注册,无需授权。
单任务版 增加界面方式连续单任务执行批量 pdf 文档转换功能。 Windows/linux 适用于批量 pdf 文档转换,无需手动逐个转换,单任务方式处理。
多任务版 增加界面方式连续多任务执行批量 pdf 文档转换功能。 Windows/linux 适用于大批量 pdf 文档转换,最多可设置 10 个并发处理数。
控制台版 增加命令行方式调用 PDF 文档转换功能。 Windows/linux 适用于以工作流方式集成 pdf 文档转换功能。
SDK版 增加 Java 调用 SDK 方式执行PDF 文档转换功能。 Windows/linux 适用于以Java调用SDK方式集成pdf文档转换功能,可返回转换文本。

效果展示

运行界面截图如下:

其中转换样式有“标记页码”和“跨页合并”两种样式可选。输出格式有html、xml、json、txt四种格式可选。以下图pdf为例说明如下:

以 “标记页码”样式输出html文件截图如下:

以 “跨页合并”样式输出html文件截图如下:

针对有单元格合并的表格,在输出xml、json、txt格式文件中可还原合并单元格,pdf截图如下:

输出txt文件截图如下:

针对页面中有分栏的情况,可以按阅读顺序衔接,pdf截图如下:

输出html文件截图如下:

更多详细资料

手把手教你用pdftranspro命令行提取pdf文档内容(含表格及段落)

java调用SDK版pdftranspro接口详解

三行java代码解析pdf获取文档内容

下载链接

pdftranspro-win-x32——点击下载

pdftranspro-win-x64——点击下载

pdftranspro-linux-x32——点击下载

pdftranspro-linux-x64——点击下载

java调用SDK版pdftranspro示例

本文完。

Pdftranspro简介相关推荐

  1. etcd 笔记(01)— etcd 简介、特点、应用场景、常用术语、分布式 CAP 理论、分布式原理

    1. etcd 简介 etcd 官网定义: A highly-available key value store for shared configuration and service discov ...

  2. Docker学习(一)-----Docker简介与安装

    一.Docker介绍 1.1什么是docker Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源 Docker可以让开发者打包他们的应用以及依赖包到一个轻量级,可移植 ...

  3. 【Spring】框架简介

    [Spring]框架简介 Spring是什么 Spring是分层的Java SE/EE应用full-stack轻量级开源框架,以IOC(Inverse Of Control:反转控制)和AOP(Asp ...

  4. TensorRT简介

    TensorRT 介绍 引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference) ...

  5. 谷粒商城学习笔记——第一期:项目简介

    一.项目简介 1. 项目背景 市面上有5种常见的电商模式 B2B.B2C.C2B.C2C.O2O B2B 模式(Business to Business),是指商家和商家建立的商业关系.如阿里巴巴 B ...

  6. 通俗易懂的Go协程的引入及GMP模型简介

    本文根据Golang深入理解GPM模型加之自己的理解整理而来 Go协程的引入及GMP模型 一.协程的由来 1. 单进程操作系统 2. 多线程/多进程操作系统 3. 引入协程 二.golang对协程的处 ...

  7. Linux 交叉编译简介

    Linux 交叉编译简介 主机,目标,交叉编译器 主机与目标 编译器是将源代码转换为可执行代码的程序.像所有程序一样,编译器运行在特定类型的计算机上,输出的新程序也运行在特定类型的计算机上. 运行编译 ...

  8. TVM Operator Inventory (TOPI)简介

    TOPI简介 这是 TVM Operator Inventory (TOPI) 的介绍.TOPI 提供了比 TVM 具有更高抽象的 numpy 风格的,通用操作和调度.TOPI 如何在 TVM 中,编 ...

  9. 计算机视觉系列最新论文(附简介)

    计算机视觉系列最新论文(附简介) 目标检测 1. 综述:深度域适应目标检测标题:Deep Domain Adaptive Object Detection: a Survey作者:Wanyi Li, ...

最新文章

  1. Hinton口中破解宇宙终极秘密的GPT-3厉害在哪?这有篇涂鸦详解
  2. 1000行python代码_GitHub - kill1000/LearnPython: 以撸代码的形式学习Python
  3. windows主机用scp命令向Linux服务器上传和下载文件
  4. 足不出户完成交付独家交付秘籍(第二回)
  5. 招募 | 贪心科技招募CV、语音分析、联邦学习课程讲师(在线+兼职)
  6. idea 用iterm 终端_iTerm2 都不会用,还敢自称老司机?(上)
  7. 充电枪cp信号控制板_筋膜枪究竟是不是智商税?评测后,我的回答更坚定了
  8. Oracle 存储过程的创建,及触发器调用存储过程
  9. 最简单易懂的C语言代码实现最小二乘法线性拟合直线
  10. 通用无线公共接口cpri_11/30
  11. js/vue:video 视频播放器
  12. 计算机基础文献检索考核,文献检索实验
  13. 驰为vi10 java_驰为Win10 Remix双系统 for Vi10,独一无二
  14. 木秀于林,风必摧之;行高于人,众必毁之?
  15. Word2016“此功能看似已中断 并需要修复”问题解决办法
  16. 记录一次重装win10系统后,没有1920*1080分辨率的问题
  17. linux g 使用教程,linux下的gedit命令使用方法与技巧
  18. 上次被 ArrayList 锤了一拳后,LinkedList 很不服气,做出最后一击
  19. 经典文献阅读之--Globally Consistent and Tightly Coupled 3D LiDAR Inertial Mapping(紧耦合3D激光雷达)
  20. Germaine的安装

热门文章

  1. 【开源】SixChat WebApp 仿微信朋友圈 PHP OR JSP
  2. Java - 批量录入Excel数据优化 (一)
  3. 在unity中内置一个查询物流信息功能
  4. android定时调用gc,Android性能:远程触发GC
  5. vb6反编译详解_[原创]VB6反编译详解(一)
  6. 最常问的网络基础面试问题整理
  7. 应用智慧农业大棚控制系统
  8. 海量数据处理常用思路和方法(转)
  9. 大数据学习:学习大数据需要多少钱
  10. 微信8.0,初心改不改?