从自用到开源,MinerU提升AI语料准备效率
使用高文本质量、高信息密度的数据进行预训练,对于提升大模型整体性能至关重要。随着大模型的兴起,文档类数据的重要性与日俱增。例如,通用大模型可借助文档作为智能助手,实现效率的提升;而在科学领域,如物理、化学、生物等专业领域,也常常借助专业文档数据来促进科学的发现。
为满足大模型对大规模高质量训练数据的需求,上海AI实验室OpenDataLab团队构建出智能数据提取工具MinerU。由MinerU参与提取的数据,率先应用于书生·浦语、书生·万象等大模型训练中,助力模型取得了优异的性能。
不同于传统的OCR技术,MinerU 具备将混合图片、公式、表格、脚注等在内的复杂多模态 PDF 文档转化为Markdown格式的能力,同时支持从包含广告等各种干扰信息或者复杂格式的网页中快速解析、抽取正文内容,大幅提升了AI语料的准备效率。
MinerU能够对PDF、PPT等格式文件进行复杂布局版面分析,并对数学及超长公式准确解析
MinerU可在复杂格式网页中剔除广告等干扰信息,快速解析、抽取正文内容今年
7月,MinerU正式对外发布并开源,凭借快速准确的SOTA效果,及开源易用、支持二次开发的开放性拓展潜力,受到广大用户及大模型开发者青睐。开源4个月以来,MinerU在GitHub星标已累计超2万,并多次登顶“GitHub Python Trending”榜单,在同类型开源工具中综合领先。
开源以来,MinerU多次登顶“GitHub Python Trending”榜单,榜单链接:https://trendshift.io/repositories/11174
打破数据壁垒,服务大模型全周期需求
MinerU诞生于人工智能开放数据平台浦数OpenDataLab——国内体量及数据规模综合领先的人工智能大模型开放数据平台。OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设,上线两年多以来,吸引了超10万专业用户注册使用,累计提供数据获取服务200余万次。
数据是人工智能重要的基础设施,高质量、大规模、安全可信的语料数据对于大模型的训练和性能提升至关重要。目前,OpenDataLab已构建/收录了包含“基础语料“和“专项语料”的开源精标数据集7700余个,涵盖超万亿token语料及数万小时音视频,3D模型数据达百万级;覆盖从大模型预训练、微调到评测的全生命周期数据需求,为各类基座模型及专用模型的预训练提供了坚实的数据基座。
得益于原创的数据清洗技术,OpenDataLab构建并发布了万卷(WanJuan)系列等高质量原创数据集80余个,作为关键支撑应用于书生·浦语、书生·万象等模型训练,大幅提升训练效率及建模能力。
同时,OpenDataLab积极开展与产学研机构的合作,链接模型训练、数据供给、学术研究、第三方服务等多类型机构,联合打造多知识、多模态、标准化的高质量语料数据,以打破人工智能数据壁垒,共促大模型生态建设和创新应用。目前,相关开放数据已应用于国内数十所顶级科研机构的学术研究,及多家头部互联网企业的产业实践。