🚀 PDF Converter Pro 是一个功能强大的智能 PDF 转换工具,集成了 MarkItDown、OpenDataLoader、Tesseract OCR 和 Claude LLM 智能修复,为扫描件和图片型 PDF 提供端到端的智能文字识别和纠错功能。
- MarkItDown (Microsoft) - 轻量快速,适合简单文档
- OpenDataLoader - 深度分析,包含边界框和结构信息
- Tesseract OCR - Mac 本地识别,支持中英文
- Claude LLM - 智能修复 OCR 错误,准确率 95%+
- 小文件 (<1MB) → OpenDataLoader 完整模式
- 大文件 (>10MB) → MarkItDown 快速模式
- 中等文件 (1-10MB) → 双引擎模式
- 扫描件 → 自动推荐启用 OCR
- ✅ 自动修复 OCR 识别错误(乱码、错别字)
- ✅ 保守策略,避免"好心办坏事"
- ✅ 支持多种模型:Haiku(快速便宜)和 Sonnet(更强能力)
- ✅ 差分报告,透明展示修改内容
- ✅ 保护日期、年份、金额、专有名词不被错误修改
- Markdown - 适合阅读和 LLM 处理
- JSON - 结构化数据,包含边界框
- HTML - 带样式的网页展示
- 纯文本 - Tesseract 识别结果
# Python 3.10+
python3 --version
# Java 11+ (OpenDataLoader 需要)
java -version
# 安装 Python 包
pip install markitdown[pdf]
pip install opendataloader-pdf
# 安装 Tesseract OCR (Mac)
brew install tesseract tesseract-lang
# 安装 Java 11 (Mac)
brew install openjdk@11# 克隆仓库
git clone https://github.com/yourusername/pdf-converter-pro.git
cd pdf-converter-pro
# 安装脚本
chmod +x pdf-convert-pro
sudo ln -s $(pwd)/pdf-convert-pro /usr/local/bin/pdf-convert-pro# 智能转换单个文件(自动选择最佳引擎)
pdf-convert-pro document.pdf
# 指定输出目录
pdf-convert-pro document.pdf -o output/
# 查看文件信息
pdf-convert-pro document.pdf --info# 启用 OCR(扫描件推荐)
pdf-convert-pro scanned.pdf --ocr
# 指定 OCR 语言
pdf-convert-pro document.pdf --ocr --ocr-lang chi_sim+eng
# 预处理图片(提升准确率)
pdf-convert-pro low_quality.pdf --ocr --ocr-preprocess# 设置 Claude API key
export ANTHROPIC_API_KEY="sk-ant-xxx..."
# OCR + LLM 智能修复(效果最好)
pdf-convert-pro document.pdf --ocr --llm-fix
# 使用更强的 Sonnet 模型
pdf-convert-pro document.pdf --ocr --llm-fix --llm-model sonnet
# 查看修复报告
cat output/document_ocr_report.txt# 批量转换目录
pdf-convert-pro --batch ./pdfs/ -o ./output/
# 递归处理子目录
pdf-convert-pro --batch ./docs/ -o ./output/ --recursive
# 批量 OCR + LLM 修复
pdf-convert-pro --batch ./scanned/ -o ./output/ --ocr --llm-fix-o, --output DIR 输出目录 (默认: pdf_output/)
-f, --format FORMAT 输出格式: markdown,json,html
--fast 强制使用 MarkItDown (快速模式)
--deep 强制使用 OpenDataLoader (深度模式)
--verbose 显示详细处理过程--ocr 启用 OCR(扫描件推荐)
--ocr-engine ENGINE OCR 引擎: tesseract, ocrmypdf
--ocr-lang LANG OCR 语言: chi_sim, chi_tra, eng, chi_sim+eng
--ocr-preprocess 预处理图片(提升 OCR 准确率)--llm-fix 启用 LLM 智能修复 OCR 错误(需要 ANTHROPIC_API_KEY)
--llm-model MODEL Claude 模型: haiku, sonnet (默认: haiku 最便宜)--extract-tables 提取表格 (仅 OpenDataLoader)
--keep-images 保留图片资源
--pages RANGE 页面范围 (如: 1-10,20-30)
--recursive 递归处理子目录 (批量模式)
--info 显示文件信息
--check 检查工具安装状态
-h, --help 显示此帮助信息| 功能 | MarkItDown | OpenDataLoader | Tesseract | LLM 修复 |
|---|---|---|---|---|
| 速度 | ~1秒 | 5-6秒 | 10-30秒/页 | +5-10秒 |
| 准确率 | 80% | 90% | 85% | 95%+ |
| 适用场景 | 简单文档 | 复杂文档 | 扫描件 | 错误修正 |
# 房屋租赁合同扫描件
pdf-convert-pro contract.pdf --ocr --llm-fix
# 输出:
# - contract_ocr.md (修复后的文本)
# - contract_ocr_report.txt (差分报告)# 批量转换,自动 OCR + LLM 修复
pdf-convert-pro --batch ./scanned_docs/ -o ./archive/ --recursive --ocr --llm-fix# 深度模式 + JSON 输出
pdf-convert-pro research.pdf --deep -f json
# 提取结构化数据和边界框- ✅ OCR 完全本地处理 - 无需网络连接,数据安全
⚠️ LLM 需要网络 - 文档内容发送到 Anthropic API- ✅ 数据不留存 - Anthropic 不会使用数据进行训练
- ✅ API Key 本地存储 - 通过环境变量管理
# 重要文档 → 深度模式 + LLM 修复
pdf-convert-pro important.pdf --deep --ocr --llm-fix
# 大文件预览 → 快速模式
pdf-convert-pro large.pdf --fast
# 中等文件 → 自动选择
pdf-convert-pro medium.pdf --ocr --llm-fix# 预处理 + OCR + LLM 修复(效果最好)
pdf-convert-pro low_quality.pdf --ocr --ocr-preprocess --llm-fix --verbose# 日常文档 → Haiku 模型(便宜)
pdf-convert-pro docs/*.pdf --ocr --llm-fix --llm-model haiku
# 重要文档 → Sonnet 模型(更准确)
pdf-convert-pro contract.pdf --ocr --llm-fix --llm-model sonnet房屋租赁合同
HA HEA): 衢州局迪科技园运营管理有限公司
乙方《承租方) : 衢州聚身智能科技有限公司
四、本协议自 2025 年 12 月 25 日起至 2026 年4 月30 日止。房屋租赁合同
甲方(出租方): 衢州启迪科技园运营管理有限公司
乙方(承租方): 衢州聚身智能科技有限公司
四、本协议自 2025 年 12 月 25 日起至 2026 年4 月30 日止。准确率提升: 85% → 95%+
pdf-converter-pro/
├── pdf-convert-pro # 主脚本(带 OCR + LLM)
├── pdf-convert # 标准版(仅双引擎)
├── fix_ocr_function.sh # LLM 修复函数(优化版)
├── README.md # 项目文档
├── README_PRO.md # Pro 版详细文档
├── OPTIMIZATION_PLAN.md # 优化方案说明
└── LLM_FIX_SUMMARY.md # LLM 功能总结
欢迎提交 Issue 和 Pull Request!
- Fork 本仓库
- 创建特性分支 (
git checkout -b feature/AmazingFeature) - 提交更改 (
git commit -m 'Add some AmazingFeature') - 推送到分支 (
git push origin feature/AmazingFeature) - 开启 Pull Request
- ✅ 集成 Claude LLM 智能修复
- ✅ 保守修复策略,避免过度修改
- ✅ 差分报告功能
- ✅ 多模型支持(Haiku/Sonnet)
- ✅ 优化提示词,提升准确率
- ✅ 集成 Tesseract OCR
- ✅ 智能引擎选择
- ✅ 批量处理支持
- ✅ 多格式输出
- ✅ 初始版本
- ✅ MarkItDown + OpenDataLoader 双引擎
本项目采用 MIT 许可证 - 详见 LICENSE 文件
- MarkItDown - Microsoft
- OpenDataLoader
- Tesseract OCR
- Claude API - Anthropic
- 问题反馈: GitHub Issues
- 功能建议: GitHub Discussions
⭐ 如果这个项目对你有帮助,请给个 Star!