安全即服务|上海AI实验室开源『墨铠』全栈安全工具箱,150+工具护航智能体规模化应用
来源:上海人工智能实验室| 2026-05-06
近期,上海人工智能实验室(上海AI实验室)基于“安全即服务”模式,打造了高安全、产业级智能体操作系统书安,为企业提供端到端的可信方案,率先开展智能体的产业化落地实践。在此基础上,科研团队进一步整合安全能力,发布智能体全栈安全工具箱墨铠。
墨铠首批涵盖14类、150余个安全工具,覆盖智能体风险测试、数据安全、运行防御全生命周期安全需求,支持用户按需组合、灵活部署。依托DeepLink技术,墨铠实现与国产软硬件全栈深度适配,所有工具均可无缝对接企业内部智能系统,为产业场景提供全面、轻量、易落地的安全保障。
上海AI实验室将依托该工具箱建设安全服务平台,开放各类工具API,面向企业、开发者提供更普惠、更安全的技术。
当前,智能体加速迈向规模化应用,已成为大模型产业发展的核心载体。针对智能体潜在的外部恶意攻击、内部数据不可信、自身行为失控等安全隐患,墨铠提供了风险推演、可信数据及进化防御中台,形成分层分类的系统化应对体系。
风险推演中台:让风险可定位可回溯
智能体系统具备灵活性高、泛用性强等特点,相较传统软件,针对智能体的攻击面亦大幅扩张。以新型智能体攻击手段Clawdrain为例,其利用大模型自动重试机制,触发高频递归调用,不仅会形成难以终止的算力黑洞、消耗大量资源,还会扰乱智能体记忆缓存与工作空间。
针对此类攻击,传统安全护栏存在明显短板:即便识别出异常行为,也仅能通过强制初始化重置实现止损,极易造成业务中断、数据丢失,甚至带来不可挽回的损失。
为攻克这类新型攻击的防御难题,科研团队打造了风险推演中台,实现多类异构环境标准化接入,可承载数千级并发的红蓝对抗演练等任务。这一中台不但可以快速发现风险,其中的回溯沙箱ClawReverse更是首次从底层机制实现对新型攻击的有效防御。它类似智能体专属的“版本管理(Git)系统”——像游戏存档一样,在关键节点自动留存上下文、记忆状态与文件快照,构建完整的行为时序链路,支持异常场景一键回滚与多分支并行推演。当监测到异常递归、死循环等风险行为时,系统可实时阻断攻击并快速回退至安全节点。

兼容经典Git接口,适配人工运维与智能体自主调用双重场景
ClawReverse开源链接:https://github.com/AI45Lab/ClawReverse
可信数据中台:风控前置阻断恶意数据污染
据今年“3·15”晚会曝光:某些GEO(生成式引擎优化)工具,通过批量污染高权重网页和外部知识库,将虚假广告、恶意指令伪装成客观内容,诱导AI在训练或检索过程中收录,并在跟用户交互时“推荐”劣质产品。
针对GEO数据投毒这类源头性安全威胁,安全防护需前置至数据接入环节。为此,科研团队打造了可信数据中台,可承接风险推演中台输出的相关数据,将零散的运行记录提纯、沉淀为高纯度安全知识资产,为后续防御优化与安全加固等提供核心数据支撑。其中的DataElf数据安全精灵,可精准理解自然语言安全诉求,灵活调度内置的34类数据安全工具,对智能体全链路数据进行高效治理,精准甄别虚假投毒内容、恶意技能指令、异常代码及隐私风险信息,从源头拦截污染数据,守住智能体数据安全底线。

DataElf的数据安全检测精度明显超越传统基线
DataElf是业内为数不多可适配断网隔离环境部署的数据安全智能体,严格遵循按需输出原则,实现核心数据全域不外泄,筑牢本地化安全屏障。目前,上海AI实验室依托该技术已沉淀超两百万条安全知识资产,持续强化智能体全域风险免疫能力。
DataElf开源链接:https://github.com/AI45Lab/DataElf
进化防御中台:防御自主进化拦截失控风险
智能体具备自主进化能力,在大幅释放生产力的同时,也易在持续迭代过程中出现行为偏移、逻辑失准等问题。例如,今年2月底,Meta AI安全总监分享案例:其部署的OpenClaw智能体,在明确受限、仅可提供操作建议的前提下,因海量内容造成大模型上下文过载,安全约束失效,最终自主删除了两百余封工作邮件。
面对AI能力快速进步、风险边界持续扩大的现实,防御必须同步进化。基于这一理念,上海AI实验室在墨铠中构建了进化防御中台,专门适配7×24小时自主运行的智能体,实现前台高效执行任务、后台自动沉淀数据、动态安全进化,真正达成训测用一体化。
进化防御中台以ClawSentry为核心防御框架,集成规则、语义分析及专用护栏模型机制,兼顾运行效率与深度安全检测,支持威胁特征提取与热加载,实现防护能力动态迭代升级。中台搭载防御诊断模型AgentDoG,聚焦安全决策能力优化,依托万级工具自动化训练流程与可解释AI归因技术,防护表现优于GPT 5.2、Gemini 3 Pro等闭源模型。
AgentDoG在智能体危险行为拦截能力上明显超越闭源模型

AgentDoG在智能体危险行为拦截能力上明显超越闭源模型
ClawSentry开源链接:https://github.com/AI45Lab/ClawSentry
AgentDoG开源链接:https://github.com/AI45Lab/AgentDoG
墨铠:14类150余个安全工具,覆盖智能体全生命周期安全需求
除上述专项风险防护能力外,面向多元化产业安全需求,科研团队围绕“风险发现-漏洞知识库-补丁加固”这一安全治理的经典链路,从安全测试工具、可信数据服务、加固防御技术三大功能维度出发,整合了首批14大类,150余个安全工具,形成了较为完善的安全工具体系,支持用户按需组合、灵活部署。后续墨铠的工具品类与能力还将持续扩充与迭代。

墨铠首批涵盖14类150余个安全工具
墨铠可高效承载百余款安全工具协同运行,以团队自研的Safactory安全工厂框架为核心,将“风险发现-认知沉淀-防御进化”的碎片化流程,整合为自动化运转、可持续进化的统一中枢,有效破解风险挖掘与防御优化相互割裂的行业痛点。依托这一框架,三大中台安全形成完整安全能力闭环:智能体在风险推演中台完成各类测试与任务演练,全程运行轨迹与数据自动沉淀至可信数据中台;进化防御中台持续吸纳结构化安全数据,动态优化防护策略,实现防御能力自主迭代、长效进化。
Safactory开源链接及技术报告:https://github.com/AI45Lab/Safactory
与此同时,依托DeepLink超智融合技术,墨铠实现了国产软硬件全栈深度适配。基于鲲鹏芯片打造智能体训测环境优化方案,结合Linux容器调优及内核同页合并(KSM)等底层深度优化,实现单实例性能提升50%以上、内存使用率下降超80%、并行规模提升6倍;基于昇腾Atlas 800 A3系列超节点算力底座,打通训练与推理跨芯片全链路流程,保障安全强化学习在超长周期稳定运行,持续维持高可靠、高吞吐的运行效能。

