激活百年数据，AI追“虾”助力南极生态治理 | AI4S进行时

来源：上海人工智能实验室｜ 2026-07-03

南极磷虾作为南极生态系统的基石物种，不仅是鱼类、鲸类、企鹅、海豹的“主食”，更是全球气候变化的“哨兵”——其分布和数量，直接反映着南极冰盖消融、洋流变暖的速度。磷虾研究与全人类息息相关。

近日，上海人工智能实验室（上海AI实验室）联合国家极地科学数据中心，基于『书生』科学发现系统Intern·Agent，共同打造了科学数据智能体SciDataCopilot，系统整合近百年间（1926-2025）的公开观测数据，进而构建起包含8万余条南极磷虾出现记录、1万余条丰度数据的标准化数据集，其体量超过国际通用南极磷虾基准数据库KRILLBASE。

在南极磷虾数据集的助力下，极地科考研究人员可以更精准地掌握南极磷虾的季节分布趋势，在全球变暖背景下，为南极海洋生态保护提供科学建议及举措。

上述研究验证了智能体赋能复杂科学数据治理的可行性。未来，上海AI实验室将进一步把Intern·Agent拓展至极地调查、海洋生态及地球系统等科学场景，助力全球科学家攀登科学高峰。

SciDataCopilot科学数据智能体：

论文链接：https://arxiv.org/pdf/2602.09132
代码链接：https://github.com/InternScience/SciDataCopilot

AI智能体激活百年数据

关于南极磷虾研究，有两个根本问题：南大洋有多少磷虾？它们分布在哪儿？

为了弄清楚这两个问题，百年来，中国、美国、澳大利亚，以及欧洲多国持续开展实地调查并产出海量观测记录。然而，行业长期面临难以破解的数据治理痛点：

一方面，南极磷虾观测数据来源多、标准不一。相关数据零散分布在各国科考档案、航次报告、学术文献及公共数据库中，涵盖12类文件格式、5种数据模态，异构性极强，跨源整合难度高。同时，不同科考航次的采样设备、作业参数、统计规范存在差异，网具类型、拖网深度、采样时间各不相同，数据字段命名、丰度计量单位互不兼容，且大量原始观测缺失标准化元数据，导致数据之间无法直接横向比对。

另一方面，依赖人工整编海量数据，效率低、可信度不足。百年来，磷虾观测积累的海量数据，依靠人工处理周期长达数年，不仅效率低，还容易产生操作误差。此外，人工整编无法完整留存数据原始来源、修改轨迹等全流程信息，缺乏完善的数据溯源体系，难以满足学术成果复现、数据合规审计、极地资源监管的可信度要求。

全球磷虾调查资料模态与格式多样

联合团队依托Intern·Agent和科学数据智能体的全自动化整编能力，对来自全球的海量异构数据进行自动解析、标准化处理，质控和溯源管理，让每一条记录既可纳入统一计算，也能追溯来源，最终构建了南极磷虾数据集。

时空覆盖广，完整串联百年南极观测历史。本次整编的磷虾数据集覆盖1926-2025年，横跨了100年的南极磷虾观测历史，新增加8万余条调查站位数据。

数据条目多，规模超越国际基准库。本次整编已形成包含8万余条出现记录数据、1万余条丰度数据的南极磷虾数据集。扩展了国际上惯用磷虾数据的数据体量和分布范围，并对原有数据进行了补充和完善，有望支撑更多南大洋生态物种分布和全球气候变化的科学发现。

南极磷虾丰度数据采样站位示意图

收集信息全，统一观测标准。本数据集整合了国际公开调查数据和中国极地科考数据，围绕南极磷虾的分布与丰度，保留了站位、时间、经纬度等关键字段，支持多维度丰度查询与跨数据源对比；标准化处理不同网具、采样深度、采样时期及航次的数据，消除观测偏差，真实反映南极磷虾种群密度的时空变化规律；创新引入蒙特卡洛模拟方法，量化了由测量误差、数据缺失带来的不确定程度。

标准化前后的磷虾丰度数据可视化对比。经标准化处理后，斯科舍海高丰度区的空间分布特征更为显著

此外，为保障数据真实准确可溯源，联合团队在构建数据集时采取“保留原始证据+记录处理过程+标记不确定性”的方式，使数据集不仅能服务统计建模，也能服务后续数据审计、版本迭代和科学验证。

智能体实现科学数据全流程自主整编

从百年科考记录中高效、准确“译”出南极磷虾数据集的关键，是联合团队打造的科学数据智能体SciDataCopilot。该智能体依托Intern·Agent开发，融合智能文档解析引擎MinerU，可针对科学实验数据准备过程中存在的模态形式多样、科学机理隐含、专业知识依赖、专业工具分散、任务定制化程度高等问题进行专项设计，实现从自然语言意图到高质量科学数据的全链路自动化的数据准备。

在本项目中，联合团队借助SciDataCopilot搭建了“数据智能规划–脚本自动生成–专家校核完善”的一体化整编流程。整套流程可自动完成字段识别、数据解析、缺失元数据筛查、字段标准化、单位换算与质量校验，并辅助专家对物种范围、生长阶段、拖网定义和异常数据进行人工复核。南极磷虾数据处理流程如下：

数据集筛查与可用性判断：判断是否属于南极磷虾成体数据；判断数据是否为丰度数据，或为生物量/声学、出现记录、形态生长、生活史阶段等其他类型数据；识别原始单位和采样深度，为后续单位换算做准备。
字段标准化：将原始列名映射到KRILLBASE兼容字段；保留原始密度信息；统一经纬度、日期、时间、网具、采样深度、过滤体积和来源信息。
标准丰度换算：将不同单位和采样条件下的观测丰度换算到可比较的标准密度。
质量控制与验证：在标准丰度换算前，对不合规记录进行剔除或标记，并开展重复记录筛查；换算后检查坐标、日期、深度、重复记录、昼夜判定、单位换算和标准化过程，保留可审计日志。

SciDataCopilot有效加速南极磷虾数据集构建，整套流程仅需调用大模型约2000次即可完成，并沉淀出数据筛查、字段理解、标准换算、质量质控等全套磷虾数据处理Skill，实现多源、多模态科考数据的全自动整编。针对某特定类型调查数据格式，SciDataCopilot仅需40–60轮交互即可完成，相比人工模式，整体效率可提升30倍以上。

SciDataCopilot架构及数据处理流程

本研究验证了智能体赋能复杂科学数据治理的可行性。未来，上海AI实验室将进一步把Intern·Agent拓展至极地调查、海洋生态及地球系统科学等多类数据治理场景，助力科研人员将散落于历史文献、项目档案与多源数据库的零散观测资料，盘活为支撑长期机理研究与智能分析的标准化数据资源。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

激活百年数据，AI追“虾”助力南极生态治理 | AI4S进行时

来源：上海人工智能实验室｜ 2026-07-03