根据您提供的信息,以下是基于 PyPDF2 的 PDF 目录添加方法的详细步骤:
第一步:获取并整理文字版目录
-
获取目录文本:从书籍的目录页获取文字,可以通过OCR软件识别扫描版的目录页,或者从豆瓣、电商网站、出版商网站等渠道获取文本版目录。
-
整理目录文本:
- 将获取的目录文本复制并粘贴到文本编辑器中。
- 使用文本编辑器的正则表达式功能进行文本格式化,例如删除多余的空格、换行符等。
- 进行繁体转简体的替换,确保文本一致性。
- 核对文本,手动修正OCR识别错误。
-
构建目录文件(bm文件):
- 按照指定的格式构建目录文件,其中每一行代表一个目录条目,格式为“层级缩进标题文本 页码”。
- 使用制表符表示层级结构,第一层级的标题不需要缩进,第二层级的标题缩进一个制表符,以此类推。
-
调整页码偏移量:使用LaunchBar动作“Page Offset Adjustment for bm”来调整OCR得到的页码与实际PDF页码之间的偏移量。
-
增加非目录页条目:在bm文件中增加封面、版权、前言、目录等不在目录页中的条目。
第二步:将文字版目录注入PDF文件
-
准备环境:确保设备上安装了Python3和PyPDF2库。
-
执行动作:
- 在LaunchBar中选中bm文件和PDF文件。
- 运行LaunchBar动作“Bookmark to PDFdir via pyPDF2”。
-
检查结果:动作成功运行后,会在原PDF所在的文件夹下生成一个新的带目录的PDF文件,并自动打开。检查生成的目录是否能够正确跳转到对应的内容。
小结:书籍PDF目录制作指引
- 逐页复制目录页文字进空白文档。
- 进行文本格式化,包括繁体转简体、删除行内空白字符等。
- 手动修正OCR错误,补充篇章页码(若篇章无页码)。
- 使用正则表达式调整层级结构,添加章节后的空格。
- 核对目录文字,调整页码偏移量。
- 增加不在目录页中的条目,保存bm文件。
- 依次选中bm、PDF文件,运行LaunchBar动作。
- 检查生成的PDF目录是否对应。
在整个过程中,注意在执行全局替换之前确认文本内容,避免错误。这些步骤将帮助您创建一个结构化良好且功能完整的PDF目录。
Views: 0