安全即服务｜上海AI实验室开源『墨铠』全栈安全工具箱，150+工具护航智能体规模化应用

来源：上海人工智能实验室｜ 2026-05-06

近期，上海人工智能实验室（上海AI实验室）基于“安全即服务”模式，打造了高安全、产业级智能体操作系统书安，为企业提供端到端的可信方案，率先开展智能体的产业化落地实践。在此基础上，科研团队进一步整合安全能力，发布智能体全栈安全工具箱墨铠。

墨铠首批涵盖14类、150余个安全工具，覆盖智能体风险测试、数据安全、运行防御全生命周期安全需求，支持用户按需组合、灵活部署。依托DeepLink技术，墨铠实现与国产软硬件全栈深度适配，所有工具均可无缝对接企业内部智能系统，为产业场景提供全面、轻量、易落地的安全保障。

上海AI实验室将依托该工具箱建设安全服务平台，开放各类工具API，面向企业、开发者提供更普惠、更安全的技术。

开源链接：https://ai45lab.github.io/

当前，智能体加速迈向规模化应用，已成为大模型产业发展的核心载体。针对智能体潜在的外部恶意攻击、内部数据不可信、自身行为失控等安全隐患，墨铠提供了风险推演、可信数据及进化防御中台，形成分层分类的系统化应对体系。

风险推演中台：让风险可定位可回溯

智能体系统具备灵活性高、泛用性强等特点，相较传统软件，针对智能体的攻击面亦大幅扩张。以新型智能体攻击手段Clawdrain为例，其利用大模型自动重试机制，触发高频递归调用，不仅会形成难以终止的算力黑洞、消耗大量资源，还会扰乱智能体记忆缓存与工作空间。

针对此类攻击，传统安全护栏存在明显短板：即便识别出异常行为，也仅能通过强制初始化重置实现止损，极易造成业务中断、数据丢失，甚至带来不可挽回的损失。

为攻克这类新型攻击的防御难题，科研团队打造了风险推演中台，实现多类异构环境标准化接入，可承载数千级并发的红蓝对抗演练等任务。这一中台不但可以快速发现风险，其中的回溯沙箱ClawReverse更是首次从底层机制实现对新型攻击的有效防御。它类似智能体专属的“版本管理（Git）系统”——像游戏存档一样，在关键节点自动留存上下文、记忆状态与文件快照，构建完整的行为时序链路，支持异常场景一键回滚与多分支并行推演。当监测到异常递归、死循环等风险行为时，系统可实时阻断攻击并快速回退至安全节点。

兼容经典Git接口，适配人工运维与智能体自主调用双重场景

ClawReverse开源链接：https://github.com/AI45Lab/ClawReverse

可信数据中台：风控前置阻断恶意数据污染

据今年“3·15”晚会曝光：某些GEO（生成式引擎优化）工具，通过批量污染高权重网页和外部知识库，将虚假广告、恶意指令伪装成客观内容，诱导AI在训练或检索过程中收录，并在跟用户交互时“推荐”劣质产品。

针对GEO数据投毒这类源头性安全威胁，安全防护需前置至数据接入环节。为此，科研团队打造了可信数据中台，可承接风险推演中台输出的相关数据，将零散的运行记录提纯、沉淀为高纯度安全知识资产，为后续防御优化与安全加固等提供核心数据支撑。其中的DataElf数据安全精灵，可精准理解自然语言安全诉求，灵活调度内置的34类数据安全工具，对智能体全链路数据进行高效治理，精准甄别虚假投毒内容、恶意技能指令、异常代码及隐私风险信息，从源头拦截污染数据，守住智能体数据安全底线。

DataElf的数据安全检测精度明显超越传统基线

DataElf是业内为数不多可适配断网隔离环境部署的数据安全智能体，严格遵循按需输出原则，实现核心数据全域不外泄，筑牢本地化安全屏障。目前，上海AI实验室依托该技术已沉淀超两百万条安全知识资产，持续强化智能体全域风险免疫能力。

DataElf开源链接：https://github.com/AI45Lab/DataElf

进化防御中台：防御自主进化拦截失控风险

智能体具备自主进化能力，在大幅释放生产力的同时，也易在持续迭代过程中出现行为偏移、逻辑失准等问题。例如，今年2月底，Meta AI安全总监分享案例：其部署的OpenClaw智能体，在明确受限、仅可提供操作建议的前提下，因海量内容造成大模型上下文过载，安全约束失效，最终自主删除了两百余封工作邮件。

面对AI能力快速进步、风险边界持续扩大的现实，防御必须同步进化。基于这一理念，上海AI实验室在墨铠中构建了进化防御中台，专门适配7×24小时自主运行的智能体，实现前台高效执行任务、后台自动沉淀数据、动态安全进化，真正达成训测用一体化。

进化防御中台以ClawSentry为核心防御框架，集成规则、语义分析及专用护栏模型机制，兼顾运行效率与深度安全检测，支持威胁特征提取与热加载，实现防护能力动态迭代升级。中台搭载防御诊断模型AgentDoG，聚焦安全决策能力优化，依托万级工具自动化训练流程与可解释AI归因技术，防护表现优于GPT 5.2、Gemini 3 Pro等闭源模型。

AgentDoG在智能体危险行为拦截能力上明显超越闭源模型

ClawSentry开源链接：https://github.com/AI45Lab/ClawSentry

AgentDoG开源链接：https://github.com/AI45Lab/AgentDoG

墨铠：14类150余个安全工具，覆盖智能体全生命周期安全需求

除上述专项风险防护能力外，面向多元化产业安全需求，科研团队围绕“风险发现-漏洞知识库-补丁加固”这一安全治理的经典链路，从安全测试工具、可信数据服务、加固防御技术三大功能维度出发，整合了首批14大类，150余个安全工具，形成了较为完善的安全工具体系，支持用户按需组合、灵活部署。后续墨铠的工具品类与能力还将持续扩充与迭代。

墨铠首批涵盖14类150余个安全工具

墨铠可高效承载百余款安全工具协同运行，以团队自研的Safactory安全工厂框架为核心，将“风险发现-认知沉淀-防御进化”的碎片化流程，整合为自动化运转、可持续进化的统一中枢，有效破解风险挖掘与防御优化相互割裂的行业痛点。依托这一框架，三大中台安全形成完整安全能力闭环：智能体在风险推演中台完成各类测试与任务演练，全程运行轨迹与数据自动沉淀至可信数据中台；进化防御中台持续吸纳结构化安全数据，动态优化防护策略，实现防御能力自主迭代、长效进化。

Safactory开源链接及技术报告：https://github.com/AI45Lab/Safactory

与此同时，依托DeepLink超智融合技术，墨铠实现了国产软硬件全栈深度适配。基于鲲鹏芯片打造智能体训测环境优化方案，结合Linux容器调优及内核同页合并（KSM）等底层深度优化，实现单实例性能提升50%以上、内存使用率下降超80%、并行规模提升6倍；基于昇腾Atlas 800 A3系列超节点算力底座，打通训练与推理跨芯片全链路流程，保障安全强化学习在超长周期稳定运行，持续维持高可靠、高吞吐的运行效能。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

InternVL

MinerU

LMDeploy

InternLM

OpenCompass

XTuner

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

安全即服务｜上海AI实验室开源『墨铠』全栈安全工具箱，150+工具护航智能体规模化应用

来源：上海人工智能实验室｜ 2026-05-06