激活百年数据,AI追“虾”助力南极生态治理 | AI4S进行时
来源:上海人工智能实验室| 2026-07-03
南极磷虾作为南极生态系统的基石物种,不仅是鱼类、鲸类、企鹅、海豹的“主食”,更是全球气候变化的“哨兵”——其分布和数量,直接反映着南极冰盖消融、洋流变暖的速度。磷虾研究与全人类息息相关。
近日,上海人工智能实验室(上海AI实验室)联合国家极地科学数据中心,基于『书生』科学发现系统Intern·Agent,共同打造了科学数据智能体SciDataCopilot,系统整合近百年间(1926-2025)的公开观测数据,进而构建起包含8万余条南极磷虾出现记录、1万余条丰度数据的标准化数据集,其体量超过国际通用南极磷虾基准数据库KRILLBASE。
在南极磷虾数据集的助力下,极地科考研究人员可以更精准地掌握南极磷虾的季节分布趋势,在全球变暖背景下,为南极海洋生态保护提供科学建议及举措。
上述研究验证了智能体赋能复杂科学数据治理的可行性。未来,上海AI实验室将进一步把Intern·Agent拓展至极地调查、海洋生态及地球系统等科学场景,助力全球科学家攀登科学高峰。
SciDataCopilot科学数据智能体:
论文链接:https://arxiv.org/pdf/2602.09132
代码链接:https://github.com/InternScience/SciDataCopilot
AI智能体激活百年数据
关于南极磷虾研究,有两个根本问题:南大洋有多少磷虾?它们分布在哪儿?
为了弄清楚这两个问题,百年来,中国、美国、澳大利亚,以及欧洲多国持续开展实地调查并产出海量观测记录。然而,行业长期面临难以破解的数据治理痛点:
一方面,南极磷虾观测数据来源多、标准不一。相关数据零散分布在各国科考档案、航次报告、学术文献及公共数据库中,涵盖12类文件格式、5种数据模态,异构性极强,跨源整合难度高。同时,不同科考航次的采样设备、作业参数、统计规范存在差异,网具类型、拖网深度、采样时间各不相同,数据字段命名、丰度计量单位互不兼容,且大量原始观测缺失标准化元数据,导致数据之间无法直接横向比对。
另一方面,依赖人工整编海量数据,效率低、可信度不足。百年来,磷虾观测积累的海量数据,依靠人工处理周期长达数年,不仅效率低,还容易产生操作误差。此外,人工整编无法完整留存数据原始来源、修改轨迹等全流程信息,缺乏完善的数据溯源体系,难以满足学术成果复现、数据合规审计、极地资源监管的可信度要求。

全球磷虾调查资料模态与格式多样
联合团队依托Intern·Agent和科学数据智能体的全自动化整编能力,对来自全球的海量异构数据进行自动解析、标准化处理,质控和溯源管理,让每一条记录既可纳入统一计算,也能追溯来源,最终构建了南极磷虾数据集。
时空覆盖广,完整串联百年南极观测历史。本次整编的磷虾数据集覆盖1926-2025年,横跨了100年的南极磷虾观测历史,新增加8万余条调查站位数据。
数据条目多,规模超越国际基准库。本次整编已形成包含8万余条出现记录数据、1万余条丰度数据的南极磷虾数据集。扩展了国际上惯用磷虾数据的数据体量和分布范围,并对原有数据进行了补充和完善,有望支撑更多南大洋生态物种分布和全球气候变化的科学发现。

南极磷虾丰度数据采样站位示意图
收集信息全,统一观测标准。本数据集整合了国际公开调查数据和中国极地科考数据,围绕南极磷虾的分布与丰度,保留了站位、时间、经纬度等关键字段,支持多维度丰度查询与跨数据源对比;标准化处理不同网具、采样深度、采样时期及航次的数据,消除观测偏差,真实反映南极磷虾种群密度的时空变化规律;创新引入蒙特卡洛模拟方法,量化了由测量误差、数据缺失带来的不确定程度。

标准化前后的磷虾丰度数据可视化对比。经标准化处理后,斯科舍海高丰度区的空间分布特征更为显著
此外,为保障数据真实准确可溯源,联合团队在构建数据集时采取“保留原始证据+记录处理过程+标记不确定性”的方式,使数据集不仅能服务统计建模,也能服务后续数据审计、版本迭代和科学验证。
智能体实现科学数据全流程自主整编
从百年科考记录中高效、准确“译”出南极磷虾数据集的关键,是联合团队打造的科学数据智能体SciDataCopilot。该智能体依托Intern·Agent开发,融合智能文档解析引擎MinerU,可针对科学实验数据准备过程中存在的模态形式多样、科学机理隐含、专业知识依赖、专业工具分散、任务定制化程度高等问题进行专项设计,实现从自然语言意图到高质量科学数据的全链路自动化的数据准备。
在本项目中,联合团队借助SciDataCopilot搭建了“数据智能规划–脚本自动生成–专家校核完善”的一体化整编流程。整套流程可自动完成字段识别、数据解析、缺失元数据筛查、字段标准化、单位换算与质量校验,并辅助专家对物种范围、生长阶段、拖网定义和异常数据进行人工复核。南极磷虾数据处理流程如下:
数据集筛查与可用性判断:判断是否属于南极磷虾成体数据;判断数据是否为丰度数据,或为生物量/声学、出现记录、形态生长、生活史阶段等其他类型数据;识别原始单位和采样深度,为后续单位换算做准备。
字段标准化:将原始列名映射到KRILLBASE兼容字段;保留原始密度信息;统一经纬度、日期、时间、网具、采样深度、过滤体积和来源信息。
标准丰度换算:将不同单位和采样条件下的观测丰度换算到可比较的标准密度。
质量控制与验证:在标准丰度换算前,对不合规记录进行剔除或标记,并开展重复记录筛查;换算后检查坐标、日期、深度、重复记录、昼夜判定、单位换算和标准化过程,保留可审计日志。
SciDataCopilot有效加速南极磷虾数据集构建,整套流程仅需调用大模型约2000次即可完成,并沉淀出数据筛查、字段理解、标准换算、质量质控等全套磷虾数据处理Skill,实现多源、多模态科考数据的全自动整编。针对某特定类型调查数据格式,SciDataCopilot仅需40–60轮交互即可完成,相比人工模式,整体效率可提升30倍以上。

SciDataCopilot架构及数据处理流程
本研究验证了智能体赋能复杂科学数据治理的可行性。未来,上海AI实验室将进一步把Intern·Agent拓展至极地调查、海洋生态及地球系统科学等多类数据治理场景,助力科研人员将散落于历史文献、项目档案与多源数据库的零散观测资料,盘活为支撑长期机理研究与智能分析的标准化数据资源。

