科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

构建科学智能的“度量衡”,『浦江科学评测共创计划』正式启动

当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为“革命的工具”,需要采用“通专融合AGI”方式。大模型的突破性能力逐步改变科学研究的模式,而大模型在科学领域的深度应用亟需科学的评测支撑。

然而当前评测多集中于单一学科领域,缺乏跨学科的统一评价机制与综合性基准,且未覆盖知识推理、实验模拟、假设生成等多维度科学能力,因而难以全面评估大模型的跨学科能力。此外,目前的评测题目多源自公开题库/教辅材料,缺乏对大模型未来能力的评估,无法真实评估迭代迅速的大模型的能力。

为构建 AI4S 领域的基准性评测体系,支撑跨学科协同创新,上海人工智能实验室(上海AI实验室)发起“浦江科学评测共创计划”,基于开放评测体系司南,携手各科学研究领域的同行,共同定义涵盖知识推理、实验模拟、假设生成等维度的多层次评测框架,建立首个跨学科可迁移的科学能力评估基准,构建科学智能的“度量衡”。通过创造“人类科学家-AI系统”协同进化的评估场景,探索从“工具辅助”到“认知共生”的新型科研形态,推动科研范式变革。

近期,“浦江科学评测共创计划”启动会召开,来自北京大学、上海交通大学、复旦大学、华东师范大学、中国科学院理论物理研究所以及上海AI实验室等多家研究机构的数十位专家学者围绕项目背景、价值、组织形式等内容展开深入探讨。

640 (25).png


参与方式

现阶段,“浦江科学评测共创计划”面向各学科领域的研究者,进行数学、物理、化学、生命科学、地球科学、材料学、计算机等 7 个学科的评测集征集。评测题目的收录要求:

原创性:当前 AI 系统无法轻易解决,且具有创新意义,未在互联网上出现过或不能通过搜索轻松获取答案;

科学性:各学科中的重要问题,需包含多个知识概念,需要模型进行多步复杂推理才能得出正确答案;

可验证:具有客观、明确、可校验的答案,尽量避免主观性较强的题目。

欢迎愿为 AI for Science 的发展贡献力量的同行加入“浦江科学评测共创计划”,贡献相关领域的题目。题目一经收录,贡献者将获得认可激励。

可访问链接 https://collaboration.opencompass.org.cn/home,按页面提示和引导提交问题和答案。

如有任何疑问,欢迎通过邮箱联系 opencompass@pjlab.org.cn