根据您提供的信息,以下是基于 PyPDF2 的 PDF 目录添加方法的详细步骤:

第一步:获取并整理文字版目录

  1. 获取目录文本:从书籍的目录页获取文字,可以通过OCR软件识别扫描版的目录页,或者从豆瓣、电商网站、出版商网站等渠道获取文本版目录。

  2. 整理目录文本

    • 将获取的目录文本复制并粘贴到文本编辑器中。
    • 使用文本编辑器的正则表达式功能进行文本格式化,例如删除多余的空格、换行符等。
    • 进行繁体转简体的替换,确保文本一致性。
    • 核对文本,手动修正OCR识别错误。
  3. 构建目录文件(bm文件)

    • 按照指定的格式构建目录文件,其中每一行代表一个目录条目,格式为“层级缩进标题文本 页码”。
    • 使用制表符表示层级结构,第一层级的标题不需要缩进,第二层级的标题缩进一个制表符,以此类推。
  4. 调整页码偏移量:使用LaunchBar动作“Page Offset Adjustment for bm”来调整OCR得到的页码与实际PDF页码之间的偏移量。

  5. 增加非目录页条目:在bm文件中增加封面、版权、前言、目录等不在目录页中的条目。

第二步:将文字版目录注入PDF文件

  1. 准备环境:确保设备上安装了Python3和PyPDF2库。

  2. 执行动作

    • 在LaunchBar中选中bm文件和PDF文件。
    • 运行LaunchBar动作“Bookmark to PDFdir via pyPDF2”。
  3. 检查结果:动作成功运行后,会在原PDF所在的文件夹下生成一个新的带目录的PDF文件,并自动打开。检查生成的目录是否能够正确跳转到对应的内容。

小结:书籍PDF目录制作指引

  • 逐页复制目录页文字进空白文档。
  • 进行文本格式化,包括繁体转简体、删除行内空白字符等。
  • 手动修正OCR错误,补充篇章页码(若篇章无页码)。
  • 使用正则表达式调整层级结构,添加章节后的空格。
  • 核对目录文字,调整页码偏移量。
  • 增加不在目录页中的条目,保存bm文件。
  • 依次选中bm、PDF文件,运行LaunchBar动作。
  • 检查生成的PDF目录是否对应。

在整个过程中,注意在执行全局替换之前确认文本内容,避免错误。这些步骤将帮助您创建一个结构化良好且功能完整的PDF目录。


read more

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注