构建科学智能的“度量衡”，『浦江科学评测共创计划』正式启动

来源：上海人工智能实验室｜ 2025-04-22

当前，驱动科学研究的人工智能（AI for Science，AI4S）在单点取得了可观的进展，实现了工具层面的革新，然而要成为“革命的工具”，需要采用“通专融合AGI”方式。大模型的突破性能力逐步改变科学研究的模式，而大模型在科学领域的深度应用亟需科学的评测支撑。

然而当前评测多集中于单一学科领域，缺乏跨学科的统一评价机制与综合性基准，且未覆盖知识推理、实验模拟、假设生成等多维度科学能力，因而难以全面评估大模型的跨学科能力。此外，目前的评测题目多源自公开题库/教辅材料，缺乏对大模型未来能力的评估，无法真实评估迭代迅速的大模型的能力。

为构建 AI4S 领域的基准性评测体系，支撑跨学科协同创新，上海人工智能实验室（上海AI实验室）发起“浦江科学评测共创计划”，基于开放评测体系司南，携手各科学研究领域的同行，共同定义涵盖知识推理、实验模拟、假设生成等维度的多层次评测框架，建立首个跨学科可迁移的科学能力评估基准，构建科学智能的“度量衡”。通过创造“人类科学家-AI系统”协同进化的评估场景，探索从“工具辅助”到“认知共生”的新型科研形态，推动科研范式变革。

近期，“浦江科学评测共创计划”启动会召开，来自北京大学、上海交通大学、复旦大学、华东师范大学、中国科学院理论物理研究所以及上海AI实验室等多家研究机构的数十位专家学者围绕项目背景、价值、组织形式等内容展开深入探讨。

640 (25).png

参与方式

现阶段，“浦江科学评测共创计划”面向各学科领域的研究者，进行数学、物理、化学、生命科学、地球科学、材料学、计算机等 7 个学科的评测集征集。评测题目的收录要求：

原创性：当前 AI 系统无法轻易解决，且具有创新意义，未在互联网上出现过或不能通过搜索轻松获取答案；

科学性：各学科中的重要问题，需包含多个知识概念，需要模型进行多步复杂推理才能得出正确答案；

可验证：具有客观、明确、可校验的答案，尽量避免主观性较强的题目。

欢迎愿为 AI for Science 的发展贡献力量的同行加入“浦江科学评测共创计划”，贡献相关领域的题目。题目一经收录，贡献者将获得认可激励。

可访问链接 https://collaboration.opencompass.org.cn/home，按页面提示和引导提交问题和答案。

如有任何疑问，欢迎通过邮箱联系 opencompass@pjlab.org.cn

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

人才招聘

招生信息

${ v.newstitle }

构建科学智能的“度量衡”，『浦江科学评测共创计划』正式启动

来源：上海人工智能实验室｜ 2025-04-22