科研动态

Dynamics

首页 >  科研动态 > 新闻  >  详情

“书生·天际”正式开源,助力应用场景下城市实景重建

       近日,上海人工智能实验室(上海AI实验室)正式开源了全球首个城市级NeRF实景三维大模型“书生·天际”(LandMark),支持在不同应用场景下的落地部署,并提供免费商用作为上海AI实验室书生通用大模型体系的重要组成部分,书生·天际将逐步开放更多能力,赋能学术研究和产业发展。

      今年7月,上海AI实验室联合香港中文大学和上海市测绘院发布了书生·天际,首次在大模型层面提出一种新的实景三维模型表征和训练范式,以4K级图像精度准确呈现大规模三维城市场景。

      凭借强大的城市实景“重建”和“编辑”能力,引发产学研界广泛关注。基于行业现实需求,上海AI实验室开源了书生·天际的核心算法与训练策略,使用者可根据自身应用场景落地复现大模型能力,切实为行业带来AI技术进步增效。

      上海AI实验室领军科学家林达华教授表示,书生·天际拥有广阔的应用空间,期待在合作中探索新的应用,推动技术创新与产业进步,与行业伙伴一道“自由编辑城市的广阔与细腻”。

    638334081284650000.png

        书生·天际官网 https://landmark.intern-ai.org.cn(点击阅读原文获取)

        开源链接 https://github.com/InternLandMark/LandMark

        论文链接 https://city-super.github.io/gridnerf

 

      开源关键能力:助力落地应用性能复现

       核心算法与模型训练策略,是书生·天际实现当前能力的关键。本次开源,书生·天际首次公开了多分支GridNeRF模型核心算法及与之匹配的训练策略,研究人员及从业者在具体场景下,使用开源内容即可复现实施书生·天际相关能力,以AI助力行业升级提质。

       具体开源内容:

       1、核心算法:大尺度城市场景的多分支GridNeRF模型

       2、训练策略:

  • 与多分支GridNeRF模型匹配的BranchParallel并行训练策略;

  • GridNeRF的单卡训练与离线渲染策略;

  • GridNeRF的并行训练策略(PlanParallel、 ChannelParallel、 DataParallel)

      GridNeRF:从单体渲染到自由延展

       NeRF是一种新的三维重建与表征技术,可以通过少量数据实现三维重建,被广泛应用于物体级别的三维建模中。如何将NeRF技术应用于城市建筑甚至城市场景的三维建模中,需要多维度的创新性突破。

       为实现城市级大规模实景建模,2021年12月,上海AI实验室首次提出CityNeRF,将卫星与近景等多种不同高度的影像进行有效融合,率先把NeRF建模技术从物体级拓展到城市级。通过对单体建筑的绕飞影像采集,即可实现一定规模的实景渲染重建。

       在CityNeRF基础上,上海AI实验室进一步研发出第二代CityNeRF技术,即GridNeRF。基于网格(Grid)表征和NeRF表征相结合的双支模型结构(GridNeRF),支持模型的多层级拓展,为城市级大范围建模奠定了技术基础。

638334116973970000.gif

在书生·天际穿梭在楼宇间

       第二代CityNeRF从捕捉单个建筑拓展至采集整个区域各处的细节。与第一代CityNeRF技术仅能围绕着单个建筑做绕飞式渲染不同,最新技术则可以实现在整个区域上下翻飞、平移穿梭,更高效地建模。

       本次开源的GridNeRF,正是全面升级后的第二代CityNeRF技术。不仅实现了4K分辨率离线渲染,在保持高质量场景重建的基础上在城市区域和地标建筑两个维度上提供丰富的超越重建能力,可对实景中的城市布局进行建筑移动、新建建筑等调整,并调节光照、季节等城市风格,一键“编辑城市”。

638334117978000000.gif

在书生·天际中可对城市实景进行“再编辑”

638334118506290000.gif

在书生·天际中“编辑”中华艺术宫

      实景三维建模新范式:轻量、经济、高效

       基于“算法+计算系统+算子”系统式的解决思路,通过与其采用的渐进式渲染、并行训练与多分支策略,在实际应用层面,书生·天际成为集训练、渲染、交互一体化的系统,开创了城市级实景三维建模新范式。

       轻量:双支模型结构,精细捕捉场景细节,实现大规模场景重建与无限扩展

      GirdNeRF包含2个分支,其中网格端(Grid branch)将场景分解成地面特征平面和垂直特征轴,即将城市场景分解为更小粒度,再通过NeRF端(NeRF branch)采用轻量MLP网络重建训练视角,生成高质量渲染图像。同时,通过一种化整为零的策略,使用渐进式渲染方式更好地支持大规模场景渲染,为实现无限城市场景重建提供了可能性。

 

638334119795290000.png

基于网格(Grid)表征的双支模型结构

638334120378160000.gif

在书生·天际中对城市实景进行光影变化调节

        经济:合理化跳跃空白,降低千亿级模型在大规模应用下的训练与渲染成本

       书生·天际可在算法中光线采集阶段准确预测对实际重建无效的采样点,从而“合理化跳跃”。书生·天际具有千亿级参数,前序环节的采样数量与计算效率对于模型的训练与渲染性能来说非常重要,而且,算法模型会提前终止非必要的渲染,不仅可以更好地减少渲染计算量提升计算效率,同时更能降低前序环节中90%以上的采样量,大幅降低计算复杂度与渲染成本。

638334121180700000.gif

高效、经济系统实现快速训练

       高效:并行训练与多分支策略,提升效率千倍,高效处理大尺度城市复杂数据

       在训练策略上,书生·天际通过PlaneParallel与ChannelParallel两种模型并行训练将训练任务分成多个部分,同时在多台计算机上完成,提高了训练速度。同时,设计多分支模型MultiBranch Model和与之对应的BranchParallel训练策略将模型分割成多个部分,每个部分负责处理图像的一部分,使模型适应不同场景和尺度。这些策略帮助降低了训练时间和资源需求,使模型更好地理解和编辑城市场景,渲染效率提升1000倍。

638334121753820000.png

comm@pjlab.org.cn

上海市徐汇区云锦路701号西岸国际人工智能中心37-38层

沪ICP备2021009351号-1