PDFMiner 是一个 Python 的 PDF 解析器,可以从 PDF 文档中提取信息。与其他 PDF 相关的工具不同,它侧重的是获取和分析文本数据。PDFMiner 允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个 PDF 转换器,可以把 PDF 文件转换成 HTML 等格式。还有一个扩展的 PDF 解析器,可以用于除文本分析以外的其他用途。

特性

完全用 Python 编写

解析、分析和转换 PDF 文档

PDF-1.7 规范支持

CJK 语言和垂直书写脚本支持

支持各种字体类型(Type1、TrueType、Type3 和 CID)

基本加密(RC4)支持

大纲(TOC)提取

标记内容提取

自动布局分析

PDFMiner 内置两个工具:pdf2txt.py 和 dumppdf.py:

pdf2txt.py 从 PDF 文件中提取所有文本内容。但不能识别画成图片的文本,这需要特征识别。对于加密的 PDF 你需要提供一个密码才能解析,对于没有提取权限的 PDF 文档你得不到任何文本。

dumppdf.py 把 PDF 文件内容变成 pseudo-XML 格式。这个程序主要用于 debug ,但是它也可能用于提取一些有意义的内容(比如图片)。

python简介pdf_PDFMiner首页、文档和下载 - Python PDF 解析器 - OSCHINA - 中文开源技术交流社区...相关推荐

  1. java simplejson_JSON.simple首页、文档和下载 - JSON/BSON开发包 - OSCHINA - 中文开源技术交流社区...

    JSON.simple是一个简单的Java类库,用于解析和生成JSON文本.不依赖于其它类库,性能高. 示例代码: System.out.println("=======decode==== ...

  2. leveldb java实例_EZDB首页、文档和下载 - LevelDB 的 Java 封装 - OSCHINA - 中文开源技术交流社区...

    EZDB 为 LevelDB 提供一个很好的 Java 封装. 功能包括:Key/value 查询 Hash/range 查询 (类似 Amazon 的 DynamoDB) 可插入式的序列化 可插入式 ...

  3. python倒排索引实现_倒排索引原理和实现 - uncle_LLD的个人空间 - OSCHINA - 中文开源技术交流社区...

    关于倒排索引 搜索引擎通常检索的场景是:给定几个关键词,找出包含关键词的文档.怎么快速找到包含某个关键词的文档就成为搜索的关键.这里我们借助单词--文档矩阵模型,通过这个模型我们可以很方便知道某篇文档 ...

  4. python二次开发odoo_odoo二次开发 - 战鹏的Blog - OSCHINA - 中文开源技术交流社区

    #odoo Odoo 的前身是 OpenERP,是一个开源的企业 ERP 系统.odoo官网 通过官网可以看到odoo可以干很多事情,例如销售.CRM等等. #odoo文档 我们可以在odoo文档看到 ...

  5. python羊车门问题_羊车门问题 - osc_wq8j2a9a的个人空间 - OSCHINA - 中文开源技术交流社区...

    题目描述:有3扇关闭的门,一扇门后面停着汽车,其余门后是山羊,只有主持人知道每扇门后面是什么.参赛者可以选择一扇门,在开启它之前,主持人会开启另外一扇门,露出门后的山羊,然后允许参赛者更换自己的选择. ...

  6. python 点云重建,点云 表面重建 - osc_0tk7cpde的个人空间 - OSCHINA - 中文开源技术交流社区...

    啊哈 最近在参加一个数学建模的比赛 要求是对一个果子里面的虫洞进行三维模型重建 但是百度之后并没有找到对点云数据直接重建的方法(很少) 整个代码是python写的 里面的各种库似乎有一个是可以做这个的 ...

  7. java盒图_盒须图简介 - Java报表工具技术讨论,Style Report 报表专题 - OSCHINA - 中文开源技术交流社区...

    盒须图(Boxplot)主要用于对数据分布的显示.对于详细数据的显示通常采用下面几种方法. 最简单的方法是把所有的数据显示在一个散点图上.读者可以直接观察数据点的分布. 但如果数据量很大,数据点就会大 ...

  8. python开源项目博客_Blog_mini首页、文档和下载 - Python Flask开源博客 - OSCHINA - 中文开源技术交流社区...

    使用Blog_mini,你完全不用担心博客的管理问题! Blog_mini是一个用Python Flask开发的,拥有简洁页面(支持响应式布局!)和强大后台管理功能的开源博客系统,使用Blog_min ...

  9. python 第三方绘图库_D3py首页、文档和下载 - 基于 D3 的 Python 绘图库 - OSCHINA - 中文开源技术交流社区...

    D3py 是一个基于 D3 的 Python 绘图库,可以像 D3 那样画出可交互的漂亮图形. D3py 的目的是把来自命令行或者脚本的数据画到浏览器窗口,d3py 通过构建两个优秀的包来实现这一点. ...

最新文章

  1. 谷歌pixel3axl开发者模式_谷歌 Android Q 和 iOS 12.3新测试版发布,看完心动了!
  2. ORACLE 几个我忍了他很多年的问题
  3. Oracle10g补丁怎么安装,在CentOS6.4上安装oracle10g需要的补丁
  4. 腾讯天衍实验室主任郑冶枫
  5. 【Tyvj1185】【codevs1296】【BZOJ1588】营业额统计,Splay练习
  6. ojdbc14_g.jar与ojdbc14.jar区别
  7. 面试官:Spring该选择哪个构造方法来进行实例化?画重点要考的
  8. sql卡住php-fpm会cpu大涨,排查PHP-FPM占用CPU过高
  9. php.ini中Magic_Quotes_Gpc开关设置
  10. 手把手教你搭建LyncServer2013之发布Office Web App服务器(十二)
  11. 研究 -- 很多时候,就是证伪
  12. JAVA代码重复率多少达标_【案例】代码重复率太高不要怕,求真老师教你化险为夷!...
  13. SwitchyOmega_Chromium插件的下载安装以及使用
  14. 线性代数学习笔记——第五十七讲——特征子空间
  15. 5种方案实现订单30分钟未支付,则自动取消
  16. python队列的实现
  17. 超级计算机阿波罗11,阿波罗11号制导计算机中指令模块和登月模块原始代码已在 GitHub 上开源...
  18. 全球最易受黑客攻击的国家:中国排第五
  19. APP下载二维码微信扫一扫无法打开解决方案
  20. 第七十六篇:车辆安全-车载软件C语言开发指南(MISRA-C)

热门文章

  1. 20210808 滑模中常见趋近率
  2. NOI2013矩阵游戏
  3. 经典算法:牛顿迭代法求平方根
  4. MYECLIPSE中快速解决项目的错误的方法
  5. hdu 4602 Partition
  6. [黑马程序员二]:C#面向对象基础
  7. Go语言中Goroutine与线程的区别
  8. HTML5 使用 JS 生成二维码,带头像
  9. Codeforces 524E Rooks and Rectangles 线段树
  10. Deployer 的使用