工具

freepic2pdf
vscode

提取pdf标签信息


提取出两个文件。

itf文件里修改目录起始页码,如:此pdf第14页对应书籍的第一页。

将BasePage改为对应的起始页码。

txt文件内就是目录信息,接下来先要在网上(如豆瓣)找到对应书籍的目录信息,当然也可以使用OCR扫描目录生成对应文字信息。


但此格式不符合我们的需要,因此要重新格式化。

格式化目录信息

vscode打开提取出来的FreePic2Pdf_bkmk.txt文件,并将目录信息复制进去。
我们需要的格式为:

格式化后:
第一部分 标 题    9第1章 标题    101.1 标题    111.1.1 标 题    12

几个要点:

  1. 章节(小节)数和章节(小节)名之间有一个空格
  2. 章节(小节)名和页码之间一个制表符(\t)
  3. 每一个子章节(小节)比上一层级多一个制表符(\t)

初始格式化

由于网络上能找到的目录格式混杂,因此直接全部初始化为基本格式。

页码

正则表达式查找

(\d{1,3})$
//行尾匹配,寻找行末有1到3个数字结尾的数字,并且括号内的为分组1

替换

\t$1
//替换为一个制表符,$1代表括号内的分组1

一级标题

一般为“第X章”。
正则查找

^(第(\d|\D)+章)

如果是“第一部分”这类格式,也可为

^(第.*部分)

替换为

$1

//$1代表括号内的第一个分组
//注意$1后有一个空格

三级标题

行头匹配,因此倒序替换(先三级标题,后二级标题,如有更多级标题也是从后往前匹配替换)。
“1.1.1”类型格式
正则匹配

^(\d+\.\d+\.\d+)

替换

\t\t$1
//三级标题有两个制表符,并且最后有一个空格


“一、二、三、”类型格式
正则匹配

^(.|..)、

替换

\t\t$1、

二级标题

正则匹配

^(\d+\.\d+)

替换

\t$1
//二级标题有一个制表符,且最后有一个空格

成品展示

合并目录标签

使用freepic2pdf,更改pdf,挂载书签。
注意如果pdf在其他软件中打开,先关闭之后再进行挂载。

最终成果展示

扩展阅读

PdgCntEditor教程
Pdf补丁丁(根据文档结构自动生成目录)

PDF根据目录信息格式化并生成大纲标签相关推荐

  1. pdf书签目录一键生成,再也不怕找不到了

    最近在看一个pdf,很长很长,1000多页.这种时候没有导航跳转是很痛苦的.所幸,这个pdf带了导航.但是,带的是一个错误的导航...更加痛苦. 经过一整圈的搜索,终于找到了一款神器!pdf补丁丁!功 ...

  2. 计算机素养大赛基础赛项,全国大学生计算机应用能力与信息素养大赛竞赛大纲ICGS4赛项.DOC...

    全国大学生计算机应用能力与信息素养大赛竞赛大纲ICGS4赛项 全国大学生计算机应用能力与信息素养大赛 竞赛大纲 IC3-GS4 赛项竞赛大纲 1 计算机基础 1.1 操作系统基础 1.1.1 定义与作 ...

  3. java 字符串转pdf文件_java中根据模板生成pdf文件

    原标题:java中根据模板生成pdf文件 阅读目录 简介 业务需求 引入jar包 pdf模板文件与方法参数 代码部分 总结归纳 回到顶部 简介 本文使用java引入apach提供的pdf操作工具生成p ...

  4. R语言使用table1包绘制(生成)三线表、使用单变量分列构建三线表、为指定变量添加单位信息、自定义overall的标签名称

    R语言使用table1包绘制(生成)三线表.使用单变量分列构建三线表.为指定变量添加单位信息.自定义overall的标签名称 目录

  5. 前端导出多页pdf 带目录 页眉 页脚及页码

    前段时间公司发布新需求,要求用户点击按钮可以导出pdf或者html到本地,pdf中要包含可点击跳转的目录,要分页记录页码,还有页眉和页脚,和后台的小哥哥配合试了好多方法,最终完成的效果还不错,在这里做 ...

  6. python 给PDF添加目录

    目录 一.相关库安装 1.PyPDF系列: 2.pdfplumber 3.pdfminer3k 二.主要代码 1.pdfplumber提取相关信息 2.addBookmark 一.相关库安装 pip ...

  7. 如何为PDF添加目录

    这里介绍一个在线为PDF添加目录的网站 https://magic-pdf.tk 使用步骤 1. 进入在线编辑PDF目录的网站 https://magic-pdf.tk 2. 点击"选择文件 ...

  8. EduCoder-程序设计技术R-选择结构程序设计进阶-(第1关:快递费用计算)(第2关:计算一元二次方程的根)(第3关:产品信息格式化)

    目录 第1关:快递费用计算 代码示例 第2关:计算一元二次方程的根 代码示例 第3关:产品信息格式化 代码示例 第1关:快递费用计算 任务描述 本关任务:编写一个计算机快递费的程序. 上海市的某快递公 ...

  9. 【iText5 生成PDF】纯Java代码实现生成PDF(自定义表格、文本水印、单元格样式)

    工作中遇到需要生成PDF.最终选择了iText.其他也有通过html再生成.感觉不太适合就用了代码实现. 使用iText 5.5.13.1版本.纯Java代码实现 1.自定义表格合并指定行列完成数据填 ...

最新文章

  1. 霹雳小组4显示不了服务器,霹雳小组4-指令码
  2. 放心,GPT-3 不会“杀死”编程
  3. Git命令:常用Git命令集合
  4. yum update upgrade 区别_CentOS与RedHat的区别
  5. python3 pygame load图片不显示_关于pygame image.load函数的问题
  6. linux下C语言获取微秒级时间
  7. 达达开放平台php,达达开放平台对接
  8. python用实现FGO自动挂机战斗思路
  9. 新能源汽车控制技术分享:VCU整车控制器电控开发
  10. Thread线程中的stop方法过时问题
  11. 重启osd服务失败:Start request repeated too quickly
  12. python表达爱意_程序员有哪些对女友表达爱意的奇招?
  13. Windows家庭版添加本地组策略编辑器的方法
  14. Tomcat - 深度学习 - 类加器详解
  15. 【kafka专栏】安全认证之SCRAM动态用户管理的方式
  16. xt6使用技巧_凯迪拉克XT6中控屏幕功能使用操作图解
  17. Java钉钉markdown模版,钉钉 dingding dingtalk prometheus报警模板template
  18. python实现单机斗地主手机版下载_单机斗地主手机版下载免费版乐
  19. Android 11 Wifi之ConnectivityService流程
  20. uni-app封装axios

热门文章

  1. iOS WebView加载url缓存问题
  2. 联邦学习算法介绍-FedAvg详细案例-Python代码获取
  3. 天鸽年营收超8亿,为何战略投资月活1000万+的花椒直播
  4. 七上八下猜数字_六一儿童节游园活动的项目和游戏规则.doc
  5. 【3D建模制作技巧分享】如何使用ZBrush导出效果图
  6. HTML5七夕情人节表白网页制作【JavaScript和Canvas外太空表盘两款】HTML+CSS+JavaScript
  7. 【表格排序】vue-elementul表格简单实现排序,数组对象排序方法
  8. EXCEL01:excel与数据格式
  9. 【如何找IDEA】之打补丁法
  10. 比较好的国外外包网站(转)