MinerU – 支持PDF、网页、电子书一站式开源高质量数据提取工具

MinerU 是一种将 PDF 文件转换为机器可读格式(如 Markdown、JSON)的工具,以便轻松提取成任何格式。MinerU 在 InternLM 的预训练过程中诞生。专注于解决科学文献中的符号转换问题。

特性

  • 删除标题、页脚、脚注和页码,同时保持语义连贯
  • 从多列文档中以可读顺序输出文本
  • 保留文档的原始结构,包括标题、段落和列表
  • 提取图像、图像标题、表格和表格标题
  • 自动识别文档中的公式并转换为 LaTeX
  • 自动识别表格并转换为 LaTeX
  • 自动检测并为损坏的 PDF 启用 OCR
  • 支持 CPU 和 GPU 环境
  • 支持 Windows、Linux 和 Mac 平台

安装

1. 安装 magic-pdf

  1. 打开终端或命令提示符。

  2. 运行以下命令创建名为 MinerU 的虚拟环境,并指定 Python 版本为 3.10:

      conda create -n MinerU python=3.10
  3. 激活虚拟环境:

      conda activate MinerU
  4. 安装 magic-pdf 库 (包含完整功能):

      pip install magic-pdf[full]==0.7.0b1 --extra-index-url https://wheels.myhloli.com

2. 下载模型权重文件

重要提示: 下载完成后,请务必验证模型文件是否完整。

  • 检查模型文件大小是否与网页描述相符。
  • 如果可能,请使用 sha256 校验码验证文件完整性。

3. 复制并配置配置文件

  1. 在代码仓库的根目录找到配置文件模板 magic-pdf.template.json

  2. 重要! 运行以下命令将配置文件复制到您的用户目录,否则程序无法运行。

    • Windows 用户目录:C:\Users\YourUsername
    • Linux 用户目录:/home/YourUsername
    • macOS 用户目录:/Users/YourUsername

      cp magic-pdf.template.json ~/magic-pdf.json
  3. 打开用户目录中的 magic-pdf.json 文件,找到 "models-dir" 配置项。

  4. 重要提示!"models-dir" 的路径配置为模型权重文件的存储位置 (即第 2 步下载的位置)。

    • 确保路径准确,否则程序无法找到模型文件。
    • Windows 路径需要注意:

      • 包含驱动器字母 (例如 D:)
      • 将反斜杠 () 替换为正斜杠 (/) 以避免 JSON 文件转义序列引起的语法错误。

      例如: 如果模型存储在 D 盘根目录的 "models" 文件夹中,则 "models-dir" 的值应为 D:/models

      {
      // 其他配置项
      "models-dir": "D:/models",
      "table-config": {
        "is_table_recog_enable": false, // 表格识别默认禁用,可修改此值启用
        "max_time": 400
      }
      }

      完成以上步骤,您就成功安装了 MinerU 并配置好了模型文件!

官方链接

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注