目录

1 准备

①Adobe Acrobat

②Autobookmark插件

③Python3.6

④pdf电子书的目录bookmarks.txt

2 得到书签标准文件

2.1 bookmarks.txt标准文件

所需目录格式,需要一、二级标题鲜明,第二级使用tab键缩进(Notepad中选中整体直接tab进行缩进,或shift+tab回缩),第三级类推

标题和页数之间使用英文逗号分割

格式示例:

2.2 正则转换示例

将一般形式的目录,如

1 Part1 . . . . . . . . . . . . . . . . . . . 1

1.1 Part1.1 . . . . . . . . . . . . . . . . . . . 3

1.2 Part1.2 . . . . . . . . . . . . . . . . . . . 5

1.3 Part1.3 . . . . . . . . . . . . . . . . . . . 6

2 Part2 . . . . . . . . . . . . . . . . . . . 9

2.1 Part2.1 . . . . . . . . . . . . . . . . . . . 11

2.2 Part2.2 . . . . . . . . . . . . . . . . . . . 21

转为如上标准格式

python正则代码参考import re

with open('test.txt', 'r') as f:

raw_lines = f.readlines()

lines = []

# 去掉中间逗点

for line in raw_lines:

#逗点之间使用了空格

pattern_dots = re.compile(r'(\s\.)+\s')

new_line = pattern_dots.sub(',', line)

lines.append(new_line)

# 修改绝对页数

new_lines = []

for line in lines:

pattern = re.compile(r',\d+')

# 提取页数

page = pattern.findall(line)

# 将页数修改为正确的页数

new_page = int(page[0][1:]) + 12

new_line = line.replace(page[0],','+str(new_page))

new_lines.append(new_line)

with open('test_bookmarks.txt', 'w') as f:

for line in new_lines:

f.write(line)

3使用插件自动生成

将pdf用Adobe Acrobat打开,依次选择

然后选择目录文件,点击OK生成

4 其他

Question1、使用Adobe Acrobat编辑pdf后,无法保存,出现“文档无法保存,读取文档时出现错误(153)”

A:使用PDF-XChange_Editor打开pdf后,另存为新的文件,之后操作新的文件即可

Download1

Download2

Question2、关于pdf软件

PDF阅读,推荐Edge,轻便,带目录,可作标记

Adobe Acrobat 用于处理pdf,合并、生成标签等

PDF-XChange-Editor 可编辑处理,速度较快

python读取pdf文档书签 bookmark_pdf根据目录生成书签相关推荐

  1. 数据导入与预处理-第4章-数据获取python读取pdf文档

    数据导入与预处理-第4章-数据获取Python读取PDF文档 1 PDF简介 1.1 pdf是什么 2 Python操作PDF 2.1 pdfplumber库 2.2 pdfplumber基本操作 2 ...

  2. Python读取PDF文档(或TXT)

    字符串在Python内部的表示是Unicode编码,首先我们来认识Python中encode()和decode()的作用与区别: 在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的 ...

  3. python读取pdf文档书签 bookmark_用Python为PDF文件批量添加书签

    平时看一些大部头的技术书籍,大多数都是PDF版的,而且有一些书籍是影印扫描版的,几百上千页的书,没有任何书签,想要找到一个章节的位置非常费劲.那么就想,能不能搞一个工具,来自动地为这些大部头的PDF书 ...

  4. python读取pdf文档书签 bookmark_Python利用PyPDF2库获取PDF文件总页码实例

    Python中可以利用PyPDF2库来获取该pdf文件的总页码,可以根据下面的方法一步步进行下去: 1.首先,要安装PyPDF2库,利用以下命令即可: pip install PyPDF2 2.接着, ...

  5. python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子

    1.安装 pdfminer3k 通过pip安装: pip install pdfminer3k 下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/# ...

  6. 【Python】PDF文档导出指定章节为TXT

    PDF文档导出指定章节为TXT 需求 要导出3000多个pdf文档的特定章节内容为txt格式(pdf文字可复制). 解决 导出PDF 查了一下Python操作PDF文档的方法,主要是通过3个库,PyP ...

  7. 如何使用Python将PDF文档转为MP3音频

    老许小课堂开课了 一.转语音工具 微信读书里的电子书有配套的自动音频,而且声音优化的不错,比传统的机械朗读听起来舒服很多. 记得之前看到过Python有一个工具包,可以将文字转换为语音,支持英文和中文 ...

  8. python读取doc文件_Linux 下Python 读取Word文档内容的方法

    如果你是在Windows下, 直接使用win32com就可以进行读取word.doc文档和写入文档了. 但是在Linux下还真是麻烦, 一种方法是用OpenOffice的一个库来进行操作,那么意味这你 ...

  9. 教你如何使用 Python 将 pdf 文档进行 加密 解密——python实用小技能分享

      上次说了怎么将word转换为pdf格式 及 实现批量将word转换为pdf格式(点击这里),这次我又get到一个新技能–使用 Python 将 pdf 文档进行 加密 解密,哈哈哈 希望帮到更多人 ...

最新文章

  1. chatbot:基于 AIML 的 PHP 聊天机器人
  2. 【错误记录】Android 内存泄漏 错误排查记录 ( FinalizerReference 内存泄漏 )
  3. 技术人的灵魂 3 问,阿里工程师如何解答?
  4. .Net Crank性能测试入门
  5. kafka可靠数据传递
  6. ListView滑动删除效果实现
  7. 从myspace数据库看分布式系统数据结构变迁(转)
  8. 加速深度学习在线部署,TensorRT安装及使用教程
  9. 2019年11月中华人民共和国县以上行政区划代码(用于身份证前六位判断户籍所在地)
  10. 如何注册gmail邮箱
  11. 【Qt象棋游戏】05_象棋走棋规则——象、马、将、兵
  12. Ubuntu20.04、22.04安装nvidia显卡驱动——超详细、最简单
  13. BZOJ3557: [Ctsc2014]随机数
  14. 参考文献中文刊名的英文缩写对照表
  15. 何为企业?何以“大而能用,大而有当”?|一点财经
  16. android 简单快速 倒计时动画
  17. Docker Harbor概述及构建
  18. 【前端春招】前端春招实习+秋招心路历程
  19. MySQL数据库——多表查询介绍
  20. Solr简介,功能,特性

热门文章

  1. 智慧农业解决方案-土壤速测仪
  2. Linux(三)常用命令
  3. vlc音视频开发(三)桌面动态壁纸
  4. Windows Server 2012 R2 磁盘系统的管理-深博-专题视频课程
  5. 湖南大学.大学物理实验3:用分光计测量三棱镜折射率
  6. SaaSBase:推荐一些超好用的RPA流程自动化软件(下篇)
  7. Flutter IM跨端架构设计和实现
  8. 经济学建模软件 python_零基础,经济学专业,适合自学Python吗?
  9. vivado 抓取信号:mark debug 和 ILA
  10. html制作照片墙实现旋转效果