科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

“AI队友”悟性高,上海AI实验室推出多模态交互智能体框架OpenPAL

近日,上海人工智能实验室(上海AI实验室)推出智能体框架OpenPAL,首次在多人实时竞技环境中验证了AI智能体在执行开放任务时的人机交互能力。当面对未知环境时,OpenPAL可通过自我探索学习实现“进化”,同时,相较于传统智能体框架,其部署成本更低,将为人类提供更友好、更可靠的“AI队友”支持,实现“人机共智”。

 

论文标题:Building Open-Ended Embodied Agent via Language-Policy Bidirectional Adaptation

论文链接https://arxiv.org/abs/2401.00006

项目链接https://github.com/opendilab/openPAL

 

多人实时竞技环境因其环境多样和任务随机性,通常被视作研究开放任务学习的理想环境。在与人类组队竞技时,OpenPAL在适应陌生环境后,不仅提前预判了有效的“进攻”集结点,还自发学会了借助墙壁、草丛等掩体,避开“敌人”视线,悄悄接近集结点。

 

当人类通过语言明确任务目标后,OpenPAL在遵循指令的基础上,巧妙借助地形与建筑优势,从不同方向配合对“敌人”发动了“进攻”,表现出了良好的人机协同性。

638428979150080000.gif

638428979473190000.gif

OpenPAL准确理解并遵循人类指令,并可在新环境中迅速学会“隐蔽”能力

 

|“语言+策略”联合训练,达成场景自适应能力

 

上海AI实验室发布的书生通用大模型体系,实现了开放世界理解、多模态生成与交互等能力。OpenPAL以大语言模型为基座,继承了上述通用能力,并进⼀步融合了视觉、环境信息、策略空间等模态,同时具备更强的场景自适应能力,得以配合人类高效地执行任务。

 

以往基于大语言模型的AI智能体也可在新环境中探索,但其探索过程中的“经历”以语言、视频等形式储存,当AI智能体需要具体动作时,每次都会挑选一些相对重要的“经历”给AI智能体重放一遍(如RAG),但由于储存及索引“经历”有很大开销,以往方法在处理新任务时,存在性能瓶颈。

 

针对这一挑战,研究团队提出了大语言模型与策略模型联合训练的方式,使OpenPAL具备了场景自适应能力,不仅继承了在传统智能体在熟悉场景中的优异表现,还可在全新环境中进行探索和学习,完成“自我进化”。

638428980077050000.png

语言模型与策略模型的联合训练框架

研究人员以大语言模型为基座,将视觉、环境信息、策略空间等通用多模态知识融入OpenPAL中,使其具备了真实世界理解能力。在此基础上,通过联合训练方法,OpenPAL在继承“经验”的基础上获得了“悟性”,面对陌生场景,实现了同时依靠“经验”及“智慧”进行决策,完成场景适应与“自我进化”。

 

在联合训练方法中,智能体对在陌生场景中的探索“经验”以文本和标量奖励两种形式对语言模型进行更新;策略模型则同步对语言模型对齐、提升开放任务执行能力和人类指令理解能力进行训练。

 

OpenPAL的策略模型实现了轻量级,相比NVIDIA的minedojo及DeepMind的RT2等智能体,OpenPAL在拥有新环境适应能力同时,在手机等低算力设备上能达成5Hz的执行频率,达到了人类“快速反应”的标准,并进一步拉低了智能体应用门槛。

 

| 可靠的“AI队友”:听得懂也跟得上

 

与人类的配合中,通过全程使用语音对OpenPAL下达指令。针对“小心”“安静”等指令,智能体能准确理解并自定义战术动作。当接收到进攻指令后,OpenPAL与真人玩家从不同角度发起“进攻”,实现了默契的配合。

638428980263180000.gif

OpenPAL与人类从不同角度发起“进攻”,配合默契

为了让OpenPAL听得懂“人话”,研究人员构建了多样化指令数据集,并结合多步微调对其进行语言能力训练。指令集模拟人类的一般行为,多样化的特征则保证了指令的开放向性,通过多步微调迭代,OpenPAL实现了与人类语言的空间对齐。

 

用于规划的大模型具有较强的通用理解能力但执行间隔较长,为了跟得上人类“步伐”,OpenPAL采用了大模型规划与小策略模型执行相结合的架构,研究人员通过大模型将人类指令翻译成小策略模型的行动目标,使小策略模型以5Hz的执行频率对智能体进行控制,达成了上层大模型规划的目标,从而实现与人类的“同频共振”。


comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1