MinerU网站及客户端上线，下载即用，无需编程，复杂文档一键提取

来源：上海人工智能实验室｜ 2025-01-22

1月21日，智能数据提取工具MinerU网站及PC客户端正式上线。

客户端下载即用，无需进行编程部署，免去登录环节，用户仅通过简单桌面拖拽操作，即可完成多类型文档快速解析提取。全新网站提供在线试用、开源代码仓库及评测集链接，用户可一站式获取各类技术解读与功能文档。面向开发者及行业用户，MinerU同步上新开源版本及在线API接口，以高稳定性和适配性，应对多样化使用场景。

MinerU网站及下载链接：https://mineru.net

为满足大模型对大规模高质量训练数据的需求，上海人工智能实验室OpenDataLab团队构建出智能数据提取工具MinerU，具备多类型转换、多语言识别、多元素解析、高质量提取功能。由MinerU参与提取的数据，率先应用于书生·浦语、书生·万象等大模型训练中，助力模型取得了优异的性能。MinerU上线五个月，GitHub星标数已接近2.5万，被开发者誉为“大模型时代的文档提取、转换神器”。如同MinerU专属标识“U”所表达的期待，OpenDataLab将持续以用户（Uesr）和通用性（Universality）为引领，为行业提供更多数据工具与基座。

微信图片_20250122114857.png

面对标题层级众多、排版格式复杂的文档，在多类型转换功能的加持下，MinerU可智能提取并整理文字、图片。

微信图片_20250122133903.gif

文档语言多样复杂，MinerU支持70余种语言文字识别，应对多语言解析需求。

微信图片_20250122133908.gif

论文充满复杂公式、图表、注脚，在多元素解析功能的帮助下，可准确解析提取复杂公式图表，助力专用AI语料高效准备。

微信图片_20250122134128.gif

当提取对象存在视角畸变、阴影遮挡，MinerU亦能克服干扰因素，准确提取有效信息。

微信图片_20250122134238.gif

无需编程与登录，简单拖拽一键提取

本次推出的PC客户端，涵盖Win、Mac、Linux等主流操作系统版本。用户无需本地编程部署，也无需填写登录信息，下载即用，带来便捷用户体验。在客户端交互页面，通过将文件简单拖拽，或输入待转化文件URL，即可完成复杂文档的快速解析和导出。

目前，客户端支持pdf、doc、docx、ppt、pptx等格式类型文档的内容提取，提供多种识别模式、识别模型、识别语言等设置，供用户自由选择。在导出格式方面，除大模型预训练常用的Markdown文件外，MinerU客户端同时提供content_list.json、layout.json等关键的中间态文件格式导出选项，更多功能持续更新中，以满足不同场景下的具体使用需求

微信图片_20250122134430.png

MinerU客户端提供多种模式、模型及语言选项

在线API开放申请，流畅可靠使用体验

面对开发者和产业界用户的使用需求，MinerU客户端开放在线API接口，与最新开源版本的MinerU持续对齐，提供批量解析、解析结果查询下载、模型相关参数配置等“进阶”能力。得益于OpenDataLab对算力调度策略的持续优化，MinerU在同步处理多文档时更加高效，无论是批量处理还是单个大体积文件，均能快速响应，为用户提供流畅、可靠的使用体验。

填写申请信息，获得在线API接口使用资格：https://mineru.net/apiManage/docs

微信图片_20250122134522.png

API申请文档

开源版本同步升级，支持灵活定制适配

在网站及客户端的基础上，MinerU 1.0版本正式开源，通过语言识别模型的引入，新的开源版本具备自动语言识别功能，同时提供便于灵活调取的本地API接口，支持用户的数据处理任务及流程定制化。

针对数据侧API，开源版本的MinerU引入灵活的数据处理框架，支持pdf、doc、docx及ppt等多文档类型。对于用户侧API，在本次开源的开源版本中，数据处理流程被设计为一系列可组合步骤，用户可根据自身需求自由定义数据处理模式，为不同任务定制专属流程。

为推动多样化兼容性适配，研究团队进一步优化了依赖环境和配置项，确保开源版本MinerU在Linux等多平台系统的高效运行；深度适配昇腾等新兴算力硬件，安全可靠助力科研、政企用户文档数字化提升。

MinerU 1.0版本开源链接：https://github.com/opendatalab/mineru

MinerU面向科研合作用户推出了高性能版本，高效应对特定场景需求，合作申请入口：https://aicarrier.feishu.cn/share/base/form/shrcnb10VaoNQB8kQPA8DEfZC6dOpenDataLab

同时发起“探索者”开发激励计划，诚邀开发者共建MinerU社区，通过提交技术文档或开发衍生应用，将有机会获得纪念周边、项目支持、讲师资格、学术合作等激励，共同推动AI数据基础繁荣。

微信图片_20250122134821.png

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

MinerU网站及客户端上线，下载即用，无需编程，复杂文档一键提取

来源：上海人工智能实验室｜ 2025-01-22