python读取pdf文档书签 bookmark_pdf根据目录生成书签
目录
1 准备
①Adobe Acrobat
②Autobookmark插件
③Python3.6
④pdf电子书的目录bookmarks.txt
2 得到书签标准文件
2.1 bookmarks.txt标准文件
所需目录格式,需要一、二级标题鲜明,第二级使用tab键缩进(Notepad中选中整体直接tab进行缩进,或shift+tab回缩),第三级类推
标题和页数之间使用英文逗号分割
格式示例:
2.2 正则转换示例
将一般形式的目录,如
1 Part1 . . . . . . . . . . . . . . . . . . . 1
1.1 Part1.1 . . . . . . . . . . . . . . . . . . . 3
1.2 Part1.2 . . . . . . . . . . . . . . . . . . . 5
1.3 Part1.3 . . . . . . . . . . . . . . . . . . . 6
2 Part2 . . . . . . . . . . . . . . . . . . . 9
2.1 Part2.1 . . . . . . . . . . . . . . . . . . . 11
2.2 Part2.2 . . . . . . . . . . . . . . . . . . . 21
转为如上标准格式
python正则代码参考import re
with open('test.txt', 'r') as f:
raw_lines = f.readlines()
lines = []
# 去掉中间逗点
for line in raw_lines:
#逗点之间使用了空格
pattern_dots = re.compile(r'(\s\.)+\s')
new_line = pattern_dots.sub(',', line)
lines.append(new_line)
# 修改绝对页数
new_lines = []
for line in lines:
pattern = re.compile(r',\d+')
# 提取页数
page = pattern.findall(line)
# 将页数修改为正确的页数
new_page = int(page[0][1:]) + 12
new_line = line.replace(page[0],','+str(new_page))
new_lines.append(new_line)
with open('test_bookmarks.txt', 'w') as f:
for line in new_lines:
f.write(line)
3使用插件自动生成
将pdf用Adobe Acrobat打开,依次选择
然后选择目录文件,点击OK生成
4 其他
Question1、使用Adobe Acrobat编辑pdf后,无法保存,出现“文档无法保存,读取文档时出现错误(153)”
A:使用PDF-XChange_Editor打开pdf后,另存为新的文件,之后操作新的文件即可
Download1
Download2
Question2、关于pdf软件
PDF阅读,推荐Edge,轻便,带目录,可作标记
Adobe Acrobat 用于处理pdf,合并、生成标签等
PDF-XChange-Editor 可编辑处理,速度较快
python读取pdf文档书签 bookmark_pdf根据目录生成书签相关推荐
- 数据导入与预处理-第4章-数据获取python读取pdf文档
数据导入与预处理-第4章-数据获取Python读取PDF文档 1 PDF简介 1.1 pdf是什么 2 Python操作PDF 2.1 pdfplumber库 2.2 pdfplumber基本操作 2 ...
- Python读取PDF文档(或TXT)
字符串在Python内部的表示是Unicode编码,首先我们来认识Python中encode()和decode()的作用与区别: 在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的 ...
- python读取pdf文档书签 bookmark_用Python为PDF文件批量添加书签
平时看一些大部头的技术书籍,大多数都是PDF版的,而且有一些书籍是影印扫描版的,几百上千页的书,没有任何书签,想要找到一个章节的位置非常费劲.那么就想,能不能搞一个工具,来自动地为这些大部头的PDF书 ...
- python读取pdf文档书签 bookmark_Python利用PyPDF2库获取PDF文件总页码实例
Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去: 1.首先,要安装PyPDF2库,利用以下命令即可: pip install PyPDF2 2.接着, ...
- python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子
1.安装 pdfminer3k 通过pip安装: pip install pdfminer3k 下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/# ...
- 【Python】PDF文档导出指定章节为TXT
PDF文档导出指定章节为TXT 需求 要导出3000多个pdf文档的特定章节内容为txt格式(pdf文字可复制). 解决 导出PDF 查了一下Python操作PDF文档的方法,主要是通过3个库,PyP ...
- 如何使用Python将PDF文档转为MP3音频
老许小课堂开课了 一.转语音工具 微信读书里的电子书有配套的自动音频,而且声音优化的不错,比传统的机械朗读听起来舒服很多. 记得之前看到过Python有一个工具包,可以将文字转换为语音,支持英文和中文 ...
- python读取doc文件_Linux 下Python 读取Word文档内容的方法
如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了. 但是在Linux下还真是麻烦, 一种方法是用OpenOffice的一个库来进行操作,那么意味这你 ...
- 教你如何使用 Python 将 pdf 文档进行 加密 解密——python实用小技能分享
上次说了怎么将word转换为pdf格式 及 实现批量将word转换为pdf格式(点击这里),这次我又get到一个新技能–使用 Python 将 pdf 文档进行 加密 解密,哈哈哈 希望帮到更多人 ...
最新文章
- chatbot:基于 AIML 的 PHP 聊天机器人
- 【错误记录】Android 内存泄漏 错误排查记录 ( FinalizerReference 内存泄漏 )
- 技术人的灵魂 3 问,阿里工程师如何解答?
- .Net Crank性能测试入门
- kafka可靠数据传递
- ListView滑动删除效果实现
- 从myspace数据库看分布式系统数据结构变迁(转)
- 加速深度学习在线部署,TensorRT安装及使用教程
- 2019年11月中华人民共和国县以上行政区划代码(用于身份证前六位判断户籍所在地)
- 如何注册gmail邮箱
- 【Qt象棋游戏】05_象棋走棋规则——象、马、将、兵
- Ubuntu20.04、22.04安装nvidia显卡驱动——超详细、最简单
- BZOJ3557: [Ctsc2014]随机数
- 参考文献中文刊名的英文缩写对照表
- 何为企业?何以“大而能用,大而有当”?|一点财经
- android 简单快速 倒计时动画
- Docker Harbor概述及构建
- 【前端春招】前端春招实习+秋招心路历程
- MySQL数据库——多表查询介绍
- Solr简介,功能,特性