上海人工智能实验室,具身多模态大模型

具身多模态大模型

2024-07-08

该模型通过引入特殊的指示 token，同时支持多模态输入与输出，展现了对下游多种三维场景理解任务的普遍适用性，并实现了单一模型在下游各种三维场景理解评测基准均达到领先的性能。

具身多模态大模型迈向通用具身智能

三维多模态大模型 Grounded 3D-LLM

2024 年 5 月，团队提出了一个新型的三维场景-语言对齐流程。通过自动化生成从物体到局部区域的场景描述与具身对话数据，首次保留了精细的物体级别的语言描述和三维场景的对应关系，这有效地缓解了目前三维场景理解的局限性。基于预训练好的三维场景-语言对齐网络，我们进一步提出了三维多模态大型语言模型 Grounded 3D-LLM。该模型通过引入特殊的指示 token，同时支持多模态输入与输出，展现了对下游多种三维场景理解任务的普遍适用性，并实现了单一模型在下游各种三维场景理解评测基准均达到领先的性能。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

社会招聘和校园招聘

招生信息

${ v.newstitle }

具身多模态大模型

2024-07-08