OCRmyPDF 是一个开源的命令行工具,专注于为扫描的 PDF 文件添加 OCR(光学字符识别)文本层,使这些文件可以被搜索或复制。
https://github.com/ocrmypdf/OCRmyPDF
以下是它的一些主要功能:
生成可搜索的 PDF/A 文件:将普通 PDF 转换为符合 PDF/A 标准的文件,适合长期存档。
精准文本定位:将 OCR 文本准确地放置在图像下方,方便复制和粘贴。
优化 PDF 图像:在不破坏其他内容的情况下,优化 PDF 图像,通常生成的文件比输入文件更小。
多语言支持:支持多种语言的 OCR 处理。
自动校正:可以自动旋转页面、矫正倾斜的 PDF 页面。
多核处理:默认使用多核处理以提高效率。