科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

小工具如何影响大模型?MinerU四个月获2万星标!OpenDataLab用户破10万

近日,由上海人工智能实验室(上海AI实验室)开源的数据平台浦数(OpenDataLab)注册用户突破10万人,累计提供数据获取服务200余万次,成为国内体量及数据规模综合领先的人工智能大模型数据平台。目前,OpenDataLab已构建/收录开源精标数据集7700余个,并构建了面向大模型语料的全链路开源工具,为各类基座模型及专用模型提供了坚实的数据基座。

 

其中,智能数据提取工具MinerU发布4个月,GitHub星标数已突破2万,凭借快速准确、开源易用的能力特性,受到广大用户及大模型开发者青睐。

 

训练数据的质量对大模型整体性能至关重要,尤其是如何从私域数据中提取出高质量语料,对提升大模型的研发效率和性能而言尤为关键——这就为MinerU等文档提取类小工具提供了“大显身手”的机会。MinerU一方面可解析海量的文献和书籍等通用数据,高效地为通用模型提供预训练语料;另一方面,通过强化在专业细分领域的私域数据解析,MinerU将为专用模型提供高质量语料,为促进专业领域的交叉创新和科学发现提供助力。

OpenDataLab 开放数据平台:https://opendatalab.com

上个月,MinerU新版本上线,降低了硬件需求,数据提取性能及易用性“双提升”,

Demo体验链接:https://opendatalab.com/OpenSourceTools/Extractor/PDF

MinerU开源链接:https://github.com/opendatalab/MinerU

微信图片_20241209111648.jpg微信图片_20241209111653.jpg


从自用到开源,MinerU提升AI语料准备效率

使用高文本质量、高信息密度的数据进行预训练,对于提升大模型整体性能至关重要。随着大模型的兴起,文档类数据的重要性与日俱增。例如,通用大模型可借助文档作为智能助手,实现效率的提升;而在科学领域,如物理、化学、生物等专业领域,也常常借助专业文档数据来促进科学的发现。 

为满足大模型对大规模高质量训练数据的需求,上海AI实验室OpenDataLab团队构建出智能数据提取工具MinerU。由MinerU参与提取的数据,率先应用于书生·浦语、书生·万象等大模型训练中,助力模型取得了优异的性能。

不同于传统的OCR技术,MinerU 具备将混合图片、公式、表格、脚注等在内的复杂多模态 PDF 文档转化为Markdown格式的能力,同时支持从包含广告等各种干扰信息或者复杂格式的网页中快速解析、抽取正文内容,大幅提升了AI语料的准备效率。


MinerU能够对PDF、PPT等格式文件进行复杂布局版面分析,并对数学及超长公式准确解析

640.gif

MinerU可在复杂格式网页中剔除广告等干扰信息,快速解析、抽取正文内容今年

7月,MinerU正式对外发布并开源,凭借快速准确的SOTA效果,及开源易用、支持二次开发的开放性拓展潜力,受到广大用户及大模型开发者青睐。开源4个月以来,MinerU在GitHub星标已累计超2万,并多次登顶“GitHub Python Trending”榜单,在同类型开源工具中综合领先。

 

微信图片_20241209112816.png

开源以来,MinerU多次登顶“GitHub Python Trending”榜单,榜单链接:https://trendshift.io/repositories/11174

 

打破数据壁垒,服务大模型全周期需求

MinerU诞生于人工智能开放数据平台浦数OpenDataLab——国内体量及数据规模综合领先的人工智能大模型开放数据平台。OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设,上线两年多以来,吸引了超10万专业用户注册使用,累计提供数据获取服务200余万次。

数据是人工智能重要的基础设施,高质量、大规模、安全可信的语料数据对于大模型的训练和性能提升至关重要。目前,OpenDataLab已构建/收录了包含“基础语料“和“专项语料”的开源精标数据集7700余个,涵盖超万亿token语料及数万小时音视频,3D模型数据达百万级;覆盖从大模型预训练、微调到评测的全生命周期数据需求,为各类基座模型及专用模型的预训练提供了坚实的数据基座。

得益于原创的数据清洗技术,OpenDataLab构建并发布了万卷(WanJuan)系列等高质量原创数据集80余个,作为关键支撑应用于书生·浦语、书生·万象等模型训练,大幅提升训练效率及建模能力。

同时,OpenDataLab积极开展与产学研机构的合作,链接模型训练、数据供给、学术研究、第三方服务等多类型机构,联合打造多知识、多模态、标准化的高质量语料数据,以打破人工智能数据壁垒,共促大模型生态建设和创新应用。目前,相关开放数据已应用于国内数十所顶级科研机构的学术研究,及多家头部互联网企业的产业实践。