“AI队友”悟性高，上海AI实验室推出多模态交互智能体框架OpenPAL

近日，上海人工智能实验室（上海AI实验室）推出智能体框架OpenPAL，首次在多人实时竞技环境中验证了AI智能体在执行开放任务时的人机交互能力。当面对未知环境时，OpenPAL可通过自我探索学习实现“进化”，同时，相较于传统智能体框架，其部署成本更低，将为人类提供更友好、更可靠的“AI队友”支持，实现“人机共智”。

论文标题：Building Open-Ended Embodied Agent via Language-Policy Bidirectional Adaptation

论文链接：https://arxiv.org/abs/2401.00006

项目链接：https://github.com/opendilab/openPAL

多人实时竞技环境因其环境多样和任务随机性，通常被视作研究开放任务学习的理想环境。在与人类组队竞技时，OpenPAL在适应陌生环境后，不仅提前预判了有效的“进攻”集结点，还自发学会了借助墙壁、草丛等掩体，避开“敌人”视线，悄悄接近集结点。

当人类通过语言明确任务目标后，OpenPAL在遵循指令的基础上，巧妙借助地形与建筑优势，从不同方向配合对“敌人”发动了“进攻”，表现出了良好的人机协同性。

OpenPAL准确理解并遵循人类指令，并可在新环境中迅速学会“隐蔽”能力

|“语言+策略”联合训练，达成场景自适应能力

上海AI实验室发布的书生通用大模型体系，实现了开放世界理解、多模态生成与交互等能力。OpenPAL以大语言模型为基座，继承了上述通用能力，并进⼀步融合了视觉、环境信息、策略空间等模态，同时具备更强的场景自适应能力，得以配合人类高效地执行任务。

以往基于大语言模型的AI智能体也可在新环境中探索，但其探索过程中的“经历”以语言、视频等形式储存，当AI智能体需要具体动作时，每次都会挑选一些相对重要的“经历”给AI智能体重放一遍（如RAG），但由于储存及索引“经历”有很大开销，以往方法在处理新任务时，存在性能瓶颈。

针对这一挑战，研究团队提出了大语言模型与策略模型联合训练的方式，使OpenPAL具备了场景自适应能力，不仅继承了在传统智能体在熟悉场景中的优异表现，还可在全新环境中进行探索和学习，完成“自我进化”。

语言模型与策略模型的联合训练框架

研究人员以大语言模型为基座，将视觉、环境信息、策略空间等通用多模态知识融入OpenPAL中，使其具备了真实世界理解能力。在此基础上，通过联合训练方法，OpenPAL在继承“经验”的基础上获得了“悟性”，面对陌生场景，实现了同时依靠“经验”及“智慧”进行决策，完成场景适应与“自我进化”。

在联合训练方法中，智能体对在陌生场景中的探索“经验”以文本和标量奖励两种形式对语言模型进行更新；策略模型则同步对语言模型对齐、提升开放任务执行能力和人类指令理解能力进行训练。

OpenPAL的策略模型实现了轻量级，相比NVIDIA的minedojo及DeepMind的RT2等智能体，OpenPAL在拥有新环境适应能力同时，在手机等低算力设备上能达成5Hz的执行频率，达到了人类“快速反应”的标准，并进一步拉低了智能体应用门槛。

| 可靠的“AI队友”：听得懂也跟得上

与人类的配合中，通过全程使用语音对OpenPAL下达指令。针对“小心”“安静”等指令，智能体能准确理解并自定义战术动作。当接收到进攻指令后，OpenPAL与真人玩家从不同角度发起“进攻”，实现了默契的配合。

OpenPAL与人类从不同角度发起“进攻”，配合默契

为了让OpenPAL听得懂“人话”，研究人员构建了多样化指令数据集，并结合多步微调对其进行语言能力训练。指令集模拟人类的一般行为，多样化的特征则保证了指令的开放向性，通过多步微调迭代，OpenPAL实现了与人类语言的空间对齐。

用于规划的大模型具有较强的通用理解能力但执行间隔较长，为了跟得上人类“步伐”，OpenPAL采用了大模型规划与小策略模型执行相结合的架构，研究人员通过大模型将人类指令翻译成小策略模型的行动目标，使小策略模型以5Hz的执行频率对智能体进行控制，达成了上层大模型规划的目标，从而实现与人类的“同频共振”。

comm@pjlab.org.cn

上海市徐汇区龙文路129号国际传媒港L1楼

沪ICP备2021009351号-1

科研动态

“AI队友”悟性高，上海AI实验室推出多模态交互智能体框架OpenPAL

网站地图