『面向AGI4S,构建下一代数据基础设施』上海AI实验室青年科学家入选第五届“上海科技青年35人引领计划”

『面向AGI4S,构建下一代数据基础设施』上海AI实验室青年科学家入选第五届“上海科技青年35人引领计划”

来源:上海人工智能实验室| 2025-12-30

12月28日,第五届“上海科技青年35人引领计划”颁奖典礼举行。活动现场揭晓35名获奖者及15名提名奖获得者名单,汇聚来自人工智能、生物医药、集成电路、量子信息、低碳能源等前沿领域的青年科技英才。

上海人工智能实验室青年科学家何聪辉凭借“面向世界科技前沿”的突出成就入选。“我的科研理想是:构建下一代数据基础设施,进而驱动促进科学发现的通用人工智能(AGI4S)”。加入上海人工智能实验室近5年来,何聪辉带领的团队正致力于让AI-Ready数据触手可及,帮助更多机构和企业在AI时代实现“数据自由”。

高质量数据是大模型训练与应用的战略资源和关键基石。当前,科学数据呈格式非结构化、学科碎片化、任务定制化等特点,无法充分释放数据价值,推动AGI4S高质量发展。何聪辉带领团队围绕“面向AI-Ready的下一代大模型数据基础设施”开展系统性、原创性研究,不仅填补了国际数据基础设施领域的多项技术空白,更推动了全球大模型数据生态的开源化与标准化,为解决AGI发展的数据瓶颈提供了可落地的中国方案。

639026898841850000.png

639026899111600000.png

639026899186100000.png

何聪辉,清华大学博士,上海人工智能实验室青年科学家,数据平台中心负责人,长期深耕高性能计算与AI 据基础设施的交叉前沿,致力于构建面向通用人工智能的下一代数据基座。其在计算机科学顶级会议上发表论文逾150篇,谷歌学术引用超1万次,曾荣获戈登·贝尔奖(高性能计算应用最高奖)和ACL最佳主题论文奖(唯一通讯)等多项国际顶级荣誉;其构建的AI数据基座,覆盖“底层技术-评测标准-开源生态”的完整体系,为AGI的演进筑牢了关键的数据基石。部分关键项目包括:

开放数据平台OpenDataLab:累计汇聚超7700余个高质量数据集,总容量达210TB,拥有覆盖全球100多个国家和地区的超14万注册用户,累计提供超400万次下载服务。

智能文档解析引擎MinerU依托前沿多模态大模型和Agent技术,高效实现私域文档到高质量AI-Ready语料的解析,用户数超25万,在GitHub获得超过5万星标数,累计推理文档页数超8亿次。

文档解析能力基准OmniDocBench:可在实际场景中对多样化解析能力进行评估,作为唯一中国团队成果获Gemini 3.0官方收录验证。


关于“上海科技青年35人引领计划”

从世界科技前沿、经济主战场、国家重大需求、人民生命健康等战略方向,选拔35名获奖者和15名提名者,旨在探索更有利于青年科技人才脱颖而出的评价和选拔机制,培养和造就一批具有全球视野和创新影响力的青年科技工作者。


上海市徐汇区龙文路129号
国际传媒港L1楼

联系我们
comm@pjlab.org.cn