python读取pdf文档书签 bookmark_pdf根据目录生成书签

1 准备

①Adobe Acrobat

②Autobookmark插件

③Python3.6

④pdf电子书的目录bookmarks.txt

2 得到书签标准文件

2.1 bookmarks.txt标准文件

所需目录格式，需要一、二级标题鲜明，第二级使用tab键缩进(Notepad中选中整体直接tab进行缩进，或shift+tab回缩)，第三级类推

标题和页数之间使用英文逗号分割

格式示例：

2.2 正则转换示例

将一般形式的目录，如

1 Part1 . . . . . . . . . . . . . . . . . . . 1

1.1 Part1.1 . . . . . . . . . . . . . . . . . . . 3

1.2 Part1.2 . . . . . . . . . . . . . . . . . . . 5

1.3 Part1.3 . . . . . . . . . . . . . . . . . . . 6

2 Part2 . . . . . . . . . . . . . . . . . . . 9

2.1 Part2.1 . . . . . . . . . . . . . . . . . . . 11

2.2 Part2.2 . . . . . . . . . . . . . . . . . . . 21

转为如上标准格式

python正则代码参考import re

with open('test.txt', 'r') as f:

raw_lines = f.readlines()

lines = []

# 去掉中间逗点

for line in raw_lines:

#逗点之间使用了空格

pattern_dots = re.compile(r'(\s\.)+\s')

new_line = pattern_dots.sub(',', line)

lines.append(new_line)

# 修改绝对页数

new_lines = []

for line in lines:

pattern = re.compile(r',\d+')

# 提取页数

page = pattern.findall(line)

# 将页数修改为正确的页数

new_page = int(page[0][1:]) + 12

new_line = line.replace(page[0],','+str(new_page))

new_lines.append(new_line)

with open('test_bookmarks.txt', 'w') as f:

for line in new_lines:

f.write(line)

3使用插件自动生成

将pdf用Adobe Acrobat打开，依次选择

然后选择目录文件，点击OK生成

4 其他

Question1、使用Adobe Acrobat编辑pdf后，无法保存，出现“文档无法保存，读取文档时出现错误(153)”

A：使用PDF-XChange_Editor打开pdf后，另存为新的文件，之后操作新的文件即可

Download1

Download2

Question2、关于pdf软件

PDF阅读，推荐Edge，轻便，带目录，可作标记

Adobe Acrobat 用于处理pdf，合并、生成标签等

PDF-XChange-Editor 可编辑处理，速度较快

python读取pdf文档书签 bookmark_pdf根据目录生成书签相关推荐

数据导入与预处理-第4章-数据获取python读取pdf文档
数据导入与预处理-第4章-数据获取Python读取PDF文档 1 PDF简介 1.1 pdf是什么 2 Python操作PDF 2.1 pdfplumber库 2.2 pdfplumber基本操作 2 ...
Python读取PDF文档（或TXT）
字符串在Python内部的表示是Unicode编码,首先我们来认识Python中encode()和decode()的作用与区别: 在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的 ...
python读取pdf文档书签 bookmark_用Python为PDF文件批量添加书签
平时看一些大部头的技术书籍,大多数都是PDF版的,而且有一些书籍是影印扫描版的,几百上千页的书,没有任何书签,想要找到一个章节的位置非常费劲.那么就想,能不能搞一个工具,来自动地为这些大部头的PDF书 ...
python读取pdf文档书签 bookmark_Python利用PyPDF2库获取PDF文件总页码实例
Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去: 1.首先,要安装PyPDF2库,利用以下命令即可: pip install PyPDF2 2.接着, ...
python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子
1.安装 pdfminer3k 通过pip安装: pip install pdfminer3k 下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/# ...
【Python】PDF文档导出指定章节为TXT
PDF文档导出指定章节为TXT 需求要导出3000多个pdf文档的特定章节内容为txt格式(pdf文字可复制). 解决导出PDF 查了一下Python操作PDF文档的方法,主要是通过3个库,PyP ...
如何使用Python将PDF文档转为MP3音频
老许小课堂开课了一.转语音工具微信读书里的电子书有配套的自动音频,而且声音优化的不错,比传统的机械朗读听起来舒服很多. 记得之前看到过Python有一个工具包,可以将文字转换为语音,支持英文和中文 ...
python读取doc文件_Linux 下Python 读取Word文档内容的方法
如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了. 但是在Linux下还真是麻烦, 一种方法是用OpenOffice的一个库来进行操作,那么意味这你 ...
教你如何使用 Python 将 pdf 文档进行加密解密——python实用小技能分享
上次说了怎么将word转换为pdf格式及实现批量将word转换为pdf格式(点击这里),这次我又get到一个新技能–使用 Python 将 pdf 文档进行加密解密,哈哈哈希望帮到更多人 ...

python读取pdf文档书签 bookmark_pdf根据目录生成书签

python读取pdf文档书签 bookmark_pdf根据目录生成书签相关推荐

最新文章

热门文章