科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

MinerU网站及客户端上线,下载即用,无需编程,复杂文档一键提取

1月21日,智能数据提取工具MinerU网站及PC客户端正式上线。

客户端下载即用,无需进行编程部署,免去登录环节,用户仅通过简单桌面拖拽操作,即可完成多类型文档快速解析提取。全新网站提供在线试用、开源代码仓库及评测集链接,用户可一站式获取各类技术解读与功能文档。面向开发者及行业用户,MinerU同步上新开源版本及在线API接口,以高稳定性和适配性,应对多样化使用场景。

MinerU网站及下载链接:https://mineru.net

为满足大模型对大规模高质量训练数据的需求,上海人工智能实验室OpenDataLab团队构建出智能数据提取工具MinerU,具备多类型转换、多语言识别、多元素解析、高质量提取功能。由MinerU参与提取的数据,率先应用于书生·浦语、书生·万象等大模型训练中,助力模型取得了优异的性能。MinerU上线五个月,GitHub星标数已接近2.5万,被开发者誉为“大模型时代的文档提取、转换神器”。如同MinerU专属标识“U”所表达的期待,OpenDataLab将持续以用户(Uesr)和通用性(Universality)为引领,为行业提供更多数据工具与基座。

微信图片_20250122114857.png

面对标题层级众多、排版格式复杂的文档,在多类型转换功能的加持下,MinerU可智能提取并整理文字、图片。

微信图片_20250122133903.gif

文档语言多样复杂,MinerU支持70余种语言文字识别,应对多语言解析需求。

微信图片_20250122133908.gif

论文充满复杂公式、图表、注脚,在多元素解析功能的帮助下,可准确解析提取复杂公式图表,助力专用AI语料高效准备。

微信图片_20250122134128.gif

当提取对象存在视角畸变、阴影遮挡,MinerU亦能克服干扰因素,准确提取有效信息。

微信图片_20250122134238.gif


无需编程与登录,简单拖拽一键提取

本次推出的PC客户端,涵盖Win、Mac、Linux等主流操作系统版本。用户无需本地编程部署,也无需填写登录信息,下载即用,带来便捷用户体验。在客户端交互页面,通过将文件简单拖拽,或输入待转化文件URL,即可完成复杂文档的快速解析和导出。

目前,客户端支持pdf、doc、docx、ppt、pptx等格式类型文档的内容提取,提供多种识别模式、识别模型、识别语言等设置,供用户自由选择。在导出格式方面,除大模型预训练常用的Markdown文件外,MinerU客户端同时提供content_list.json、layout.json等关键的中间态文件格式导出选项,更多功能持续更新中,以满足不同场景下的具体使用需求

微信图片_20250122134430.png

MinerU客户端提供多种模式、模型及语言选项

在线API开放申请,流畅可靠使用体验

面对开发者和产业界用户的使用需求,MinerU客户端开放在线API接口,与最新开源版本的MinerU持续对齐,提供批量解析、解析结果查询下载、模型相关参数配置等“进阶”能力。得益于OpenDataLab对算力调度策略的持续优化,MinerU在同步处理多文档时更加高效,无论是批量处理还是单个大体积文件,均能快速响应,为用户提供流畅、可靠的使用体验。

填写申请信息,获得在线API接口使用资格:https://mineru.net/apiManage/docs

微信图片_20250122134522.png

API申请文档

开源版本同步升级,支持灵活定制适配

在网站及客户端的基础上,MinerU 1.0版本正式开源,通过语言识别模型的引入,新的开源版本具备自动语言识别功能,同时提供便于灵活调取的本地API接口,支持用户的数据处理任务及流程定制化。

针对数据侧API,开源版本的MinerU引入灵活的数据处理框架,支持pdf、doc、docx及ppt等多文档类型。对于用户侧API,在本次开源的开源版本中,数据处理流程被设计为一系列可组合步骤,用户可根据自身需求自由定义数据处理模式,为不同任务定制专属流程。

为推动多样化兼容性适配,研究团队进一步优化了依赖环境和配置项,确保开源版本MinerU在Linux等多平台系统的高效运行;深度适配昇腾等新兴算力硬件,安全可靠助力科研、政企用户文档数字化提升。

MinerU 1.0版本开源链接:https://github.com/opendatalab/mineru

MinerU面向科研合作用户推出了高性能版本,高效应对特定场景需求,合作申请入口:https://aicarrier.feishu.cn/share/base/form/shrcnb10VaoNQB8kQPA8DEfZC6dOpenDataLab

同时发起“探索者”开发激励计划,诚邀开发者共建MinerU社区,通过提交技术文档或开发衍生应用,将有机会获得纪念周边、项目支持、讲师资格、学术合作等激励,共同推动AI数据基础繁荣。

微信图片_20250122134821.png