MinerU 是一种将 PDF 文件转换为机器可读格式(如 Markdown、JSON)的工具,以便轻松提取成任何格式。MinerU 在 InternLM 的预训练过程中诞生。专注于解决科学文献中的符号转换问题。
特性
- 删除标题、页脚、脚注和页码,同时保持语义连贯
- 从多列文档中以可读顺序输出文本
- 保留文档的原始结构,包括标题、段落和列表
- 提取图像、图像标题、表格和表格标题
- 自动识别文档中的公式并转换为 LaTeX
- 自动识别表格并转换为 LaTeX
- 自动检测并为损坏的 PDF 启用 OCR
- 支持 CPU 和 GPU 环境
- 支持 Windows、Linux 和 Mac 平台
安装
1. 安装 magic-pdf
-
打开终端或命令提示符。
-
运行以下命令创建名为
MinerU
的虚拟环境,并指定 Python 版本为 3.10:conda create -n MinerU python=3.10
-
激活虚拟环境:
conda activate MinerU
-
安装
magic-pdf
库 (包含完整功能):pip install magic-pdf[full]==0.7.0b1 --extra-index-url https://wheels.myhloli.com
2. 下载模型权重文件
重要提示: 下载完成后,请务必验证模型文件是否完整。
- 检查模型文件大小是否与网页描述相符。
- 如果可能,请使用 sha256 校验码验证文件完整性。
3. 复制并配置配置文件
-
在代码仓库的根目录找到配置文件模板
magic-pdf.template.json
。 -
重要! 运行以下命令将配置文件复制到您的用户目录,否则程序无法运行。
- Windows 用户目录:
C:\Users\YourUsername
- Linux 用户目录:
/home/YourUsername
-
macOS 用户目录:
/Users/YourUsername
cp magic-pdf.template.json ~/magic-pdf.json
- Windows 用户目录:
-
打开用户目录中的
magic-pdf.json
文件,找到"models-dir"
配置项。 -
重要提示! 将
"models-dir"
的路径配置为模型权重文件的存储位置 (即第 2 步下载的位置)。- 确保路径准确,否则程序无法找到模型文件。
-
Windows 路径需要注意:
- 包含驱动器字母 (例如 D:)
- 将反斜杠 () 替换为正斜杠 (/) 以避免 JSON 文件转义序列引起的语法错误。
例如: 如果模型存储在 D 盘根目录的 "models" 文件夹中,则
"models-dir"
的值应为D:/models
。{ // 其他配置项 "models-dir": "D:/models", "table-config": { "is_table_recog_enable": false, // 表格识别默认禁用,可修改此值启用 "max_time": 400 } }
完成以上步骤,您就成功安装了 MinerU 并配置好了模型文件!