Pdftranspro简介
前言
PDF 文件是一种非常常用的文件格式,在企业信息系统存储和交换信息中普遍使用。然而从 PDF 文档中获取表格段落等文档内容却是一件非常麻烦的事情,这是因为pdf的设计初衷是基于文档显示的,为了能保证在不同平台中完全一致的视觉效果,文档以页为单位存储的是一系列包含线条、字符、图片等基本元素的绘图指令。基于这个原因,pdf文档不能像word文档一样直接获取表格和段落,如要获取结构化的文档内容,需要在获取字符、线条等图形及坐标基础上按阅读顺序把含线条、字符、图片等基本元素拼接成文档,过程十分复杂,而且需要不断优化才能达到满意的效果。
PDFBox是apache基金会旗下的一个为java开发人员读取和创建PDF文档而准备的纯Java开源类库。通过PDFBox可以轻松解析PDF文档并逐页获取图形元素及坐标。
pdftranspro是基于PDFBox的一款专业 pdf 文本内容提取软件,支持windows和linux平台,经过数年的持续改进其内容提取能力已经达到令人惊艳的地步,不仅能对跨页、跨栏的段落或表格进行合并处理,精确还原整篇文档内的段落和表格,而且可以同时输出html、xml、json、txt 等 4 种格式,方便用户高效获取 pdf 文档内的精确信息或数据。pdftranspro也提供 pdf文档截取合并等实用的 pdf 编辑功能。其个人版提供操作界面,可以一键处理单个pdf文档,个人用户免费使用;其收费版可以通过控制台方式或SDK方式集成pdf转换功能,需取得licence文件才能使用,用户可免费试用。
各版本及功能
版本 |
功能 |
平台 |
应用场景 |
免费版 | 以界面方式执行单个 pdf 文档转换、截取或合并 pdf 文档。 | Windows/linux | 适用于手动方式对 pdf 文档进行转换、截取、合并等。个人用户免注册,无需授权。 |
单任务版 | 增加界面方式连续单任务执行批量 pdf 文档转换功能。 | Windows/linux | 适用于批量 pdf 文档转换,无需手动逐个转换,单任务方式处理。 |
多任务版 | 增加界面方式连续多任务执行批量 pdf 文档转换功能。 | Windows/linux | 适用于大批量 pdf 文档转换,最多可设置 10 个并发处理数。 |
控制台版 | 增加命令行方式调用 PDF 文档转换功能。 | Windows/linux | 适用于以工作流方式集成 pdf 文档转换功能。 |
SDK版 | 增加 Java 调用 SDK 方式执行PDF 文档转换功能。 | Windows/linux | 适用于以Java调用SDK方式集成pdf文档转换功能,可返回转换文本。 |
效果展示
运行界面截图如下:
其中转换样式有“标记页码”和“跨页合并”两种样式可选。输出格式有html、xml、json、txt四种格式可选。以下图pdf为例说明如下:
以 “标记页码”样式输出html文件截图如下:
以 “跨页合并”样式输出html文件截图如下:
针对有单元格合并的表格,在输出xml、json、txt格式文件中可还原合并单元格,pdf截图如下:
输出txt文件截图如下:
针对页面中有分栏的情况,可以按阅读顺序衔接,pdf截图如下:
输出html文件截图如下:
更多详细资料
手把手教你用pdftranspro命令行提取pdf文档内容(含表格及段落)
java调用SDK版pdftranspro接口详解
三行java代码解析pdf获取文档内容
下载链接
pdftranspro-win-x32——点击下载
pdftranspro-win-x64——点击下载
pdftranspro-linux-x32——点击下载
pdftranspro-linux-x64——点击下载
java调用SDK版pdftranspro示例
本文完。
Pdftranspro简介相关推荐
- etcd 笔记(01)— etcd 简介、特点、应用场景、常用术语、分布式 CAP 理论、分布式原理
1. etcd 简介 etcd 官网定义: A highly-available key value store for shared configuration and service discov ...
- Docker学习(一)-----Docker简介与安装
一.Docker介绍 1.1什么是docker Docker是一个开源的应用容器引擎,基于Go语言并遵从Apache2.0协议开源 Docker可以让开发者打包他们的应用以及依赖包到一个轻量级,可移植 ...
- 【Spring】框架简介
[Spring]框架简介 Spring是什么 Spring是分层的Java SE/EE应用full-stack轻量级开源框架,以IOC(Inverse Of Control:反转控制)和AOP(Asp ...
- TensorRT简介
TensorRT 介绍 引用:https://arleyzhang.github.io/articles/7f4b25ce/ 1 简介 TensorRT是一个高性能的深度学习推理(Inference) ...
- 谷粒商城学习笔记——第一期:项目简介
一.项目简介 1. 项目背景 市面上有5种常见的电商模式 B2B.B2C.C2B.C2C.O2O B2B 模式(Business to Business),是指商家和商家建立的商业关系.如阿里巴巴 B ...
- 通俗易懂的Go协程的引入及GMP模型简介
本文根据Golang深入理解GPM模型加之自己的理解整理而来 Go协程的引入及GMP模型 一.协程的由来 1. 单进程操作系统 2. 多线程/多进程操作系统 3. 引入协程 二.golang对协程的处 ...
- Linux 交叉编译简介
Linux 交叉编译简介 主机,目标,交叉编译器 主机与目标 编译器是将源代码转换为可执行代码的程序.像所有程序一样,编译器运行在特定类型的计算机上,输出的新程序也运行在特定类型的计算机上. 运行编译 ...
- TVM Operator Inventory (TOPI)简介
TOPI简介 这是 TVM Operator Inventory (TOPI) 的介绍.TOPI 提供了比 TVM 具有更高抽象的 numpy 风格的,通用操作和调度.TOPI 如何在 TVM 中,编 ...
- 计算机视觉系列最新论文(附简介)
计算机视觉系列最新论文(附简介) 目标检测 1. 综述:深度域适应目标检测标题:Deep Domain Adaptive Object Detection: a Survey作者:Wanyi Li, ...
最新文章
- Hinton口中破解宇宙终极秘密的GPT-3厉害在哪?这有篇涂鸦详解
- 1000行python代码_GitHub - kill1000/LearnPython: 以撸代码的形式学习Python
- windows主机用scp命令向Linux服务器上传和下载文件
- 足不出户完成交付独家交付秘籍(第二回)
- 招募 | 贪心科技招募CV、语音分析、联邦学习课程讲师(在线+兼职)
- idea 用iterm 终端_iTerm2 都不会用,还敢自称老司机?(上)
- 充电枪cp信号控制板_筋膜枪究竟是不是智商税?评测后,我的回答更坚定了
- Oracle 存储过程的创建,及触发器调用存储过程
- 最简单易懂的C语言代码实现最小二乘法线性拟合直线
- 通用无线公共接口cpri_11/30
- js/vue:video 视频播放器
- 计算机基础文献检索考核,文献检索实验
- 驰为vi10 java_驰为Win10 Remix双系统 for Vi10,独一无二
- 木秀于林,风必摧之;行高于人,众必毁之?
- Word2016“此功能看似已中断 并需要修复”问题解决办法
- 记录一次重装win10系统后,没有1920*1080分辨率的问题
- linux g 使用教程,linux下的gedit命令使用方法与技巧
- 上次被 ArrayList 锤了一拳后,LinkedList 很不服气,做出最后一击
- 经典文献阅读之--Globally Consistent and Tightly Coupled 3D LiDAR Inertial Mapping(紧耦合3D激光雷达)
- Germaine的安装