本文参考Github: pdfplumber 库

(一)安装(cmd运行):

pip install pdfplumber

(二)类

顶层类:pdfplumber.PDF

核心类:pdfplumber.Page

(三)主要方法&功能简介 

method:

  1. .crop(bounding_box, relative=False)
  2. .within_bbox(bounding_box, relative=False)
  3. .dedupe_chars(tolerance=1)
  4. .extract_text(x_tolerance=3, y_tolerance=3, layout=False, x_density=7.25, y_density=13, **kwargs)
  5. .extract_words(x_tolerance=3, y_tolerance=3, keep_blank_chars=False, use_text_flow=False, horizontal_ltr=True, vertical_ttb=True, extra_attrs=[])
  6. .extract_tables(table_settings)
  7. .to_image(**conversion_kwargs)
  8. .close()

Explanation:

  1. crop 主要用于裁剪页面
  2. within_bbox 类似crop,但是如果对象含有超出裁剪边框(bounding box)部分,则不包含此对象
  3. dedupe_chars 返回具有重复字符的页面版本
  4. extract_text 将 page 中的字符对象(character object)装入单个字符串(string)
  5. extract_words 提取单词,返回一个 list 返回 pdf 文件中字符的属性
  6. extracr_tables 提取表格中的内容,并转为一个list对象
  7. to_image 返回关于 PageImage 类的实例
  8. close 刷新缓存

(四)对象(Objects)

pdfplumber.PDF 和 pdfplumber.Page 的每个实例。页面提供对多种类型的PDF对象的访问,所有着些操作都来自 pdfminer.six 库 对PDF的解析。

  • chars
  • lines
  • rects
  • curves
  • images
  • annots
  • hyperlinks

每一个object具体见文初链接。

(一)python编辑PDF文件:pdfplumber库相关推荐

  1. (二)python编辑PDF文件:pdfplumber库操作

    文章参考知乎 >> 传送门 (一)字符操作 (1)pdf文件任意页字符提取 import pdfplumber with pdfplumber.open("D:\\Desktop ...

  2. python读取pdf文件_深入学习python解析并读取PDF文件内容的方法

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

  3. 【第三方库】PHP实现创建PDF文件和编辑PDF文件

    目录 引入Setasign/fpdf.Setasign/fpdi 解决写入中文时乱码问题 1.下载并放置中文语言包(他人封装):https://github.com/DCgithub21/cd_FPD ...

  4. 利用Python提取PDF文件中的文本信息

    如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...

  5. 可编辑PDF使用pdfplumber无法抽取出文本和表格

    对于可编辑PDF文件来讲,pdfplumber库可以抽取文本和表格,之前用的还是挺好的. 同事昨天尝试了几个类型的可编辑的PDF文件,发现效果还不错. 但是今天再尝试,就发现无法解析出来文本和内容 怎 ...

  6. python 操作PDF文件 之 A3页面转A4

    python 操作PDF文件 A3页面转A4页面 文章目录 1. 需求概述 2. 代码实现 1. 需求概述 最近接到一份PDF资料需要打印,奈何页面是如图所示的A3格式的,奈何目前条件只支持打印A4. ...

  7. python读取PDF文件中跨页表格思路分享

    目录 背景 背景知识 实现思路 1.判断当前页面是否以表格结尾 2.判断下一页面是否以表格开头 3.注意事项 参考 背景 最近需要读取PDF文件中的表格,遇到的一个难点之一是如何识别并合并PDF中跨页 ...

  8. python读取pdf文件_python读取pdf文件

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 一.安装pdfminer3k模块?二. 读取pdf文件import sysimp ...

  9. Chrome现在也能编辑pdf文件了!64位安卓版上线

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 全世界最多人在用的Chrome浏览器,今天更新了. 版本号:Chrome 85 增加一系列标签管理功能,还自带PDF编辑器,并且提升10% ...

最新文章

  1. 通过自定义ISAPI Filter来禁止敏感文件的访问
  2. Spring框架基础知识
  3. static关键字_聊聊static关键字
  4. c++获取数组长度_灵魂拷问:Java如何获取数组和字符串的长度?length还是length()?...
  5. C++11向线程函数传递参数
  6. python init函数可以外部调用么,如何从python类中调用外部函数
  7. Selenium-基础操作
  8. python dataframe 列_python pandas库中DataFrame对行和列的操作实例讲解
  9. 中国剩余定理(模板+代码)
  10. 编译moveit!时缺失manipulation_msgs相关文件
  11. 分布式文件系统MFS(moosefs)实现存储共享(一)
  12. label mpchart 饼图_运用matplotlib绘制折线图、散点图、饼图、柱形图的定义代码以及案例详解...
  13. 从零基础入门Tensorflow2.0 ----八、42. 自定义流程
  14. Jsonp+spring mvc
  15. Docker入门之运行原理及常用命令
  16. web压力测试工具比较
  17. dns服务器响应 异常,DNS云学堂|快速定位DNS解析异常问题,牢记这四种DNS状态码...
  18. 班迪录屏- Bandicam v4.5.6
  19. C语言多种格式输入乘法表,C语言:九九乘法表打印
  20. Mybatis多表新增

热门文章

  1. FastReport 4 横向分栏 纵向分栏
  2. (0091)iOS开发itms-services协议安装IPA安装包
  3. HDU 5768 Lucky7 (中国剩余定理 + 容斥 + 快速乘法)
  4. 竞争优势究竟是什么?
  5. mysql云架构设计_MySQL云数据库架构设计实践 洪斌@爱可生
  6. Qt继承QWidget或者QWidget直接弹出窗口(非模态对话框)(对话框)
  7. 【已解决】谷歌浏览器使用上传插件Uploadify的上传按钮不显示
  8. Windows 8 中的运行时内存减少
  9. 如何定义公众号做的好
  10. 某站卖的第八区分发源码/APP分发系统平台源码