PDFMiner其特征有:

1、完全使用python编写。(适用于2.4或更新版本)

2、解析,分析,并转换成PDF文档。

3、PDF-1.7规范的支持。(几乎)

4、中日韩CJK语言和垂直书写脚本支持。

5、各种字体类型(Type1、TrueType、Type3,和CID)的支持。

6、基本加密(RC4)的支持。

7、PDF与HTML转换。

8、纲要(TOC)的提取。

9、标签内容提取。

10、通过分组文本块重建原始的布局。

如果你的Python有安装pip模块,就可以通过pip命令自动安装pdfminer。(不支持中文)

#python pip install pdfminer

下面是 pdfminer 官网

Install Python 2.4 or newer. (Python 3 is not supported.)

Download the PDFMiner source.

Unpack it.

Run setup.py to install:

# python setup.py install

Do the following test:

$ pdf2txt.py samples/simple1.pdf

Hello

World

Hello

World

H e l l o

W o r l d

H e l l o

W o r l d

Done!

In order to process CJK languages, you need an additional step to take during installation:

(如果要使用中日韩CJK文字须先编译再安装:)

LINUX 下命令 直接make

# make cmap

python tools/conv_cmap.py pdfminer/cmap Adobe-CNS1 cmaprsrc/cid2code_Adobe_CNS1.txt

reading ‘cmaprsrc/cid2code_Adobe_CNS1.txt’…

writing ‘CNS1_H.py’…

(this may take several minutes)

# python setup.py install

On Windows machines which don’t have make command, paste the following commands on a command line prompt:

Windows 下命令:

mkdir pdfminer\cmap

python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt

python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt

python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt

python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt

python setup.py install

附代码

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Time : 2017/7/6 21:02

# @Author : chen

# @Site :

# @File : simplePDF.py

# @Software: PyCharm

import os

from cStringIO import StringIO

import sys

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from pdfminer.pdfpage import PDFPage

def convert_pdf_2_text(path):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())

interpreter = PDFPageInterpreter(rsrcmgr, device)

with open(path, 'rb') as fp:

for page in PDFPage.get_pages(fp, set()):

interpreter.process_page(page)

text = retstr.getvalue()

device.close()

retstr.close()

return text

python pdfminer linux 版本下载_Python利器 PDFMiner python实现PDF转换TXT(附代码)相关推荐

  1. python苹果电脑如何下载_python for Mac|python Mac版V2.7.10下载(暂未上线)_预约_飞翔下载...

    pythonfor mac是一种即译式的,互动的,面向对象的编程语言,它包含了模组式的操作,异常处理,动态资料形态,十分高层次的动态资料结构,以及类别的使用.如果因为网络原因,去 Python 官网无 ...

  2. python脚本自动qq签到_Python爬虫实现自动登录、签到功能 附代码

    这篇文章主要介绍了Python爬虫实现自动登录.签到功能的代码,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下 前几天在一个素材网站上下载东 ...

  3. python语言及其应用下载_Python语言及其应用 中文pdf完整版[13MB]

    <Python语言及其应用>介绍Python 语言的基础知识及其在各个领域的具体应用,基于新版本3.x.书中首先介绍了Python 语言的一些基本知识,然后介绍了在商业.科研以及艺术领域使 ...

  4. matlab R2010a windows和linux版本下载地址

    matlab R2010a windows和linux版本下载地址: win:ed2k://|file|[%E7%9F%A9%E9%98%B5%E5%AE%9E%E9%AA%8C%E5%AE%A4]. ...

  5. python和linux运维学哪个--学习Python在Linux运维上的应用应该看哪些书 什么样的学习路线...

    python 元类生成类的方法是什么类型的 首先请一下习惯,python中的类名习惯用大写字母开 我是这样理解的,不一定对,通过type() ,还是实例方法instancemethod 只不过B这个类 ...

  6. 如何把pdf转换txt下载

    如何把pdf转换txt下载 喜欢在线阅读的朋友肯定都遇到过类似的困惑,明明看中了一篇文档,但是想将之下载出来,打算作为论文编写的材料引用时,却发现PDF只供阅读,并不具备编辑和修改的功能,这时该怎么办 ...

  7. Python利器 PDFMiner python实现PDF转换TXT(附代码)

    PDFMiner其特征有: 1.完全使用python编写.(适用于2.4或更新版本) 2.解析,分析,并转换成PDF文档. 3.PDF-1.7规范的支持.(几乎) 4.中日韩CJK语言和垂直书写脚本支 ...

  8. python苹果版本下载_python for mac 2.7 下载

    python for mac 2.7 是一种即译式的,互动的,面向对象的编程语言,它包含了模组式的操作,异常处理,动态资料形态,十分高层次的动态资料结构,以及类别的使用.如果因为网络原因,去 Pyth ...

  9. python教程文档下载_Python基础教程(第2版)PDF文档下载

    本书是经典教程的全新改版,作者根据Python 3.0版本的种种变化,全面改写了书中内容,做到既能"瞻前"也能"顾后".本书层次鲜明.结构严谨.内容翔实,特别是 ...

最新文章

  1. Redis 系统学习目录
  2. Linux中link,unlink,close,fclose详解
  3. 为什么wait和notify只能在synchronized中?
  4. FlashDevelop调试Air出错
  5. ccs读取dat文件c语言程序,TMS320DM642学习----第六篇(CCS中.dat文件类型详解)
  6. 编程语言五花八门,哪种可以让程序员赚到更多钱?
  7. 2020全球开源基础设施技术峰会分享 | 自研软硬一体化加速方案
  8. Android 别踩白块 源码分析
  9. 中国互联网公司员工平均年龄出炉,你怎么看?我躺着看
  10. bzoj1057,poj3250
  11. 20155320 Exp3 免杀原理与实践
  12. 禁用微信浏览器的下拉_解决微信浏览器禁止下拉查看真实域名网址的问题
  13. 【Unity开发小技巧】Unity中文转拼音
  14. 无限享受百度文库,财富值无视
  15. 成功杀掉病毒kpvtctr和hkvaciq
  16. vue 通过 Ctrl 、Shift 键 + 点击鼠标实现 div 多选操作
  17. 视频在线播放,边下边播的一些问题记录
  18. 技巧篇 之 Just do it (这将会是一个漫长的历程。。。)
  19. Ubuntu 18.04 安装 deepin 微信
  20. java.lang.NoSuchMethodException: com.gql.pojo.User.init() 解决方案

热门文章

  1. AMAZINGIC晶焱科技简述静电防护议题与保护方案
  2. Altium Designer中的粉红色网格和绿色框框
  3. 基于ISD1760的语音时钟播报系统
  4. Android Notification 的声音和震动
  5. 动手做一个简单的智能小车
  6. 二叉树、二叉树排序树的实现及遍历
  7. GitHub上只下载部分文件的操作教程
  8. 2021年全球与中国飞艇行业市场规模现状及企业市场份额分析
  9. 女性买车,都在关注什么?
  10. Rstudio安装程序包出错