上海AI实验室联合团队发布首个长程自主运行、技能可持续扩展的新药筛选智能体MolClaw | AGI4S进行时
来源:上海人工智能实验室| 2026-05-20
上海人工智能实验室(上海AI实验室)致力于以通专融合路径实现通用人工智能(AGI),为推动科学发现等重要任务提供“革命的工具”。科学智能上下文协议(Scientific Context Protocol,SCP)作为代表性“工具”之一,构建了覆盖实验全流程的智能协同框架,助力科学发现“群体涌现”。以SCP为核心技术底座的IEEE首个科学智能国际标准日前已获批立项。
基于SCP,上海AI智能实验室与北京大学联合科研团队,针对新药筛选工具碎片化难题,构建了多层级技能体系,并推出针对新药筛选与优化的智能体MolClaw。该智能体可通过对专业领域数据库、计算软件、预测模型等多类科学工具的统一调度与协同,首次在长程、复杂的药物发现任务中完成多步骤、自主决策式推理与执行,并持续扩展技能,进而提升药物研发流程的自动化水平与协同效率。目前,MolClaw正在北京大学、浙江大学等高校药物研发场景中开展湿实验验证。
此外,联合科研团队还发布了首个面向药物发现智能体的多维度评测基准MolBench,助力智能体在转化医学与新药研发等真实场景落地。
论文链接:https://arxiv.org/pdf/2604.21937
开源地址:https://github.com/InternScience/MolClaw
MolClaw:加速药物筛选与优化流程
在新药研发筛选环节,业内虽有ESMFold、P2Rank、AutoDock Vina等诸多工具,但不同软件的数据格式、参数体系各异且运行环境独立,研究人员需耗费大量时间对接流程——单次筛选往往耗时数日用于环境搭建与文件适配,加之流程可复现性不足,细微的参数差异,便会造成实验结果出现明显偏差。
现有AI智能体亦未能实现实质性突破:有的虽然集成多个化学工具,但仅能实现单步调用,缺乏跨阶段的工作流编排;有的能动态生成Python脚本,却依赖临时拼接,缺乏稳定可复用的标准化流程架构。这类智能体在复杂任务场景下效能快速下降,核心短板在于欠缺成熟的科学工作流编排能力。
针对上述难题,联合科研团队提出一种全新的解决思路:把原本依赖专家经验、散落在各个软件中的计算化学知识,系统性地沉淀为一套可复用、可扩展的执行架构。基于这一思路,团队搭建了多层级技能体系,并依托SCP,打造了针对新药筛选与优化的智能体MolClaw,加速药物筛选与优化流程。
多层级技能体系作为MolClaw的知识骨架,承担着规范知识应用、优化任务执行的关键作用,具体分为四层:
L1工具层:提供60个标准化原子操作模板,为每一个工具调用建立统一动作规范,从源头消除格式转换与重复配置的冗余成本;
L2工作流层:将原子能力组装为14个端到端流程框架,把虚拟筛选、先导化合物优化等核心任务,封装为具备质量门控与反馈机制的完整流水线,同时支持通过元工作流自动生成新流程,提升适配灵活性;
L3方法论层:将来自8大领域的26条正式科学原则在任务启动前强制加载,使智能体的决策逻辑、实验规范与报告结构,始终受科学方法论约束——“方法学合规”不再依赖研究者自觉,而是被直接嵌入基础设施本身,强化科学合规性;
LR研究层:负责文献检索与证据核验,遵循“计算优先、文献辅助”的层级策略,让文献服务于结果验证,而非替代推理过程。
如果说多层技能生态规范了MolClaw的思考方式,那么SCP则进一步明确它的运行机制。SCP承担着统一连接并调度30余项专业工具(含数据库、计算软件、模型等)的核心作用。它提供标准化访问接口,统一GPU资源调度,管理并发任务队列,同时自动完成工具间的格式转换与权限隔离。无论是ESMFold的蛋白结构预测、GROMACS的动力学模拟,还是QuickVina的对接评分,所有工具均通过同一套协议接入,无需为每个软件单独搭建环境或编写适配逻辑,真正实现“工具无关”的统一编排。
在执行层面,MolClaw采用严格的三阶段控制框架以实现流程规范与结果可靠:
准备阶段强制执行任务分级、技能检索与路径规划,保障任务执行的科学性;
执行阶段持续触发质量门控、异常检测与交叉验证,及时规避偏差;
交付阶段则汇总任务结果,并启动“技能结晶(Skill Crystallization)”机制——即系统自动识别成功执行路径,并沉淀为可复用新技能并写入技能仓库,实现系统能力随执行经验持续生长。该进化属于架构层面可积累、可复刻的自主成长,并非模型随机能力涌现。
目前,MolClaw已在多个大语言模型上完成验证,并兼容OpenClaw与Claude Code两套最新Agent底层框架。

MolClaw多层级技能体系和执行流程
MolBench:首个系统性药物发现AI评测基准
为给AI驱动的药物发现系统提供统一、可靠的评测框架,促进其在转化医学与新药研发中的实际应用,联合科研团队构建并发布了首个面向药物发现智能体的多维度评测基准 MolBench,涵盖分子筛选(Molecular Screening, MS)、分子优化(Molecular Optimization, MO)以及端到端(End-to-End, E2E)药物发现等任务,可系统性评估自主药物发现智能体在复杂科研流程中的综合能力。
针对智能体分子筛选能力,MolBench-MS设置三类核心任务:理化性质过滤考察阈值约束下的筛选能力;结合亲和力比较测定不同分子与靶点的结合强度;分子对接筛选则评估从候选化合物库中识别特定靶点高活性分子的能力。其中,结合亲和力比较是区分度最高的任务——单独LLM平均准确率仅45.1%,原生智能体框架达51.4%,而MolClaw以81.1%领先;在对接筛选任务中,MolClaw的命中数同样表现最优。
针对智能体分子优化能力,MolBench-MO设置两类核心任务:分子编辑评估官能团替换与骨架改造精度,MolClaw达到 100% 准确率;理化性质优化要求迭代提升QED、LogP、LogS等多项指标——单独LLM平均优化增量仅为0.521,Claude Code和OpenClaw居中,MolClaw以平均优化增量1.724、成功率100%大幅领先全部基线。
消融实验进一步验证,即便替换底层大语言模型为开源版本,MolClaw仍领先同基座原生智能体框架,证明其性能优势源于结构化工作流编排架构,并非依托特定模型赋能。

MolBench-MS、MO评测结果
针对智能体长程药物发现能力,MolBench-E2E设置9个难度递进的挑战任务,覆盖从基础分子构象采样、迭代式分子优化、双靶点从头设计到自主发现科学问题的完整研发流程。其中代表性任务要求AI在最多15轮迭代中整合受体准备、结合位点表征等多环节,筛选出至少2个对接分数比厄洛替尼提升大于2kcal/mol的分子,且连续3轮无进展需主动切换策略。最终,MolClaw仅用6轮便满分完成任务,自主设计、评估了54个候选分子,筛选出的两个分子结合评分达到-8.9kcal/mol,且药代性质优于参考药物,充分展现其在复杂药物发现流程中的自主优化与高效决策能力。


