上海AI实验室联合多家机构发布全球首个城市级NeRF实景三维大模型“书生·天际”｜WAIC 2023

来源：上海人工智能实验室｜ 2023-07-06

在7月6日举行的2023世界人工智能大会（WAIC 2023）开幕式和科学前沿全体会议上，上海人工智能实验室（上海AI实验室）联合香港中文大学和上海市测绘院发布全球首个城市级NeRF实景三维大模型“书生·天际（LandMark）”（以下简称“书生·天际”）。

书生·天际在大模型层面提出一种新的实景三维模型表征和训练范式，可以4K级图像精度准确呈现大规模三维城市场景。在重构出来的三维实景中，不仅具备包括移除、移动和新建城市建筑等城市布局的调整能力，还可以“上帝视角”调节光照、季节等城市风格。书生·天际已超越“城市重建”，突破性实现了“城市编辑”功能。

未来，上海AI实验室将对书生·天际的建模范围和功能进行扩展，并对书生·天际的算法、算子和系统全部进行开源。

“今天当谈到 AIGC，我们想到的还是一张张照片；未来，AIGC 将可能生成我们心目中的家，心目中的整个城市。”上海AI实验室林达华教授表示，书生·天际让超写实城市级三维实景成为可能，还将继续进化，覆盖更多城市区域和地标建筑，提供更多、更丰富的三维实景功能。

【超越实景重建，实现城市“可编辑”】

自然资源部发布的《实景三维中国建设总体实施方案（2022-2025年）》指出，实景三维是对一定范围内人类生产、生活和生态空间进行真实、立体、时序化反映和表达的数字空间，是重要的新型基础设施。

书生·天际在实景三维重建领域，实现了一系列技术突破。具有千亿级参数的书生·天际，已实现对100平方公里范围进行城市实景三维建模。研究人员将预先采集的航拍倾斜摄影图像导入书生·天际模型进行训练，经计算渲染后便可生成实景三维模型。

图像质量方面，书生·天际实现了4K分辨率离线渲染，同时首次实现城市级NeRF的100平方公里全范围1K分辨率、30帧实时渲染。书生·天际利用少量的倾斜拍摄图像，便可实现大规模场景的三维实景建模，建模范围理论上具有无限可扩展性。与传统建模方式相比，书生·天际效率显著提升，有望为城市数字孪生节约可观的人力和资源。

“书生·天际”可实现大规模场景的三维实景建模

4k vs 1K.gif

书生·天际实现4K分辨率离线渲染、1K分辨率实时渲染

在高质量实景重构的基础上，书生·天际首次在城市区域和地标建筑两个维度上提供丰富的超越重建能力。

可编辑.gif

在“书生·天际”中编辑地标建筑

【首创CityNeRF技术，“生成”城市】

书生·天际高性能的内核，是上海 AI 实验室首创的CityNeRF技术。2021年12月，上海AI实验室提出CityNeRF，将卫星与近景等多种不同高度的影像进行有效融合，率先把NeRF建模技术从物体级拓展到城市级。这项工作的提出超前于Google的BlockNeRF和卡内基梅隆大学的MegaNeRF。随后，上海AI实验室进一步研发出基于网格（Grid）表征和NeRF表征相结合的双支模型结构，支持模型的多层级拓展的第二代CityNeRF技术，为城市级NeRF大范围无限扩展建模奠定了技术基础。

为实现从NeRF到第二代CityNeRF的技术突破，上海AI实验室创新性提出了“算法+计算系统+算子”全套创新的“解题思路”，使大范围、高精度、可编辑的城市级实景三维大模型变为现实。

针对大规模城市级场景的NeRF建模，书生·天际采用了基于网格（Grid）表征的双支结构模型，包含一个网格端和一个NeRF端。网格端（Grid branch)将场景分解成地面特征平面和垂直特征轴，NeRF端（NeRF branch）采用轻量MLP网络重建训练视角。为减少渲染计算量，书生·天际可有效地跳过空白空间，降低九成以上采样量，同时还采用提前终止渲染的方式提高计算效率。

在训练阶段，书生·天际采取渐进式的训练策略逐步增大训练图像的分辨率。每个阶段训练后，还会加入形变损耗（distortion loss）来约束每条光束上点权重的分布，以得到更加干净紧凑的场景密度。

基于网格(Grid)表征的双支结构模型

针对三维实景重构所面临的海量计算任务，书生·天际采用了并行训练、数据集分块、分布式渲染3个计算加速方案，大幅度提升了计算效率。在并行系统中，并行策略组件（BranchParallel、PlaneParallel、ChannelParallel、DataParallel）进行混合，实现了超过200B参数量的城市级NeRF高效训练。

城市级场景的生成，输入数据规模通常达到100TB级别规模，针对大规模数据加载与预处理问题，“书生·天际”把数据分块，通过两层数据集重排，使得运算负载更均衡。渲染速度是影响基于NeRF的城市级三维实景的实际体验的关键因素，为了从系统层面充分提高渲染效率，书生·天际在渲染前先做多分支模型的分支合并。渲染引擎还根据城市级场景的特点，提出了一种运行时动态加载模型参数的策略，可以使实时渲染不随场景尺度的增大而增加所消耗的资源。得益于这一系列系统层面的优化，书生·天际最终提升渲染性能近3个数量级（1000倍），并实现了城市级NeRF的100平方公里1K分辨率、30帧的实时渲染。

随着城市场景渲染的规模不断增加和精细度要求不断提高，城市级NeRF的场景规模和渲染精细度对实时计算、存储以及系统的硬件配置都提出了更大的挑战。因此，在算子方面，书生·天际提供了一套完整的基于CUDA的算子优化方案。该方案针对网格端和NeRF端的不同特性，采用了不同的核心算子优化手段，并最终实现了一系列针对城市级NeRF计算特点的高性能算子设计。

${ v.newstitle }

${ v.newstitle }

新闻动态

科研活动

${ v.newstitle }

${ v.newstitle }

人才招聘

招生信息

${ v.newstitle }

上海AI实验室联合多家机构发布全球首个城市级NeRF实景三维大模型“书生·天际”｜WAIC 2023

来源：上海人工智能实验室｜ 2023-07-06