4DGen：基于动态3D高斯的可控4D生成新工作-电子发烧友网

一、研究背景

尽管3D和视频生成取得了飞速的发展，由于缺少高质量的4D数据集，4D生成始终面临着巨大的挑战。过去几篇工作尝试了Text-To-4D的任务，但依然存在两个主要问题：

1.由于输入依赖于单视角的图片或者简单的文本描述，并不能保证得到精准的4D结果，需要花费大量的时间进行反复调整。

2.尽管采用了Hexplane作为4D的表征，基于NeRF的方法在高分辨率和长视频上的渲染所需要的计算时间和显存占用是难以接受的。即使采用了一个超分辨的后处理网络，依然会有模糊和闪烁的结果。

为了解决上述问题，4DGen定义了“Grounded 4D Generation“新型任务形式，并且设计了新的算法框架实现高质量的4D内容生成。

二、任务定义

过往的4D生成工作是“one click“的方式，并不能对生成的结果进行有效的控制。4DGen提出了“Grounded 4D Generation“的形式，通过利用视频序列和可选的3D模型作为4D生成的控制信息，可以实现更为精准的4D内容生成。用户可通过输入视频序列或3D模型来约束4D结果的运动和外观；当用户仅提供单张图片作为输入时，可借助预训练好的视频生成模型来得到视频序列；当用户未提供3D模型时，可通过单张图片重建3D模型来作为起始点。

三、方法介绍

4DGen框架的输入起始点为用户给定或者模型生成的视频序列，对于任意的单张图片，借助多视角生成模型（multi-view diffusion model），可以得到不同视角的图片。4DGen通过对第一帧多视图进行三维重建，得到初始的静态3D Gaussians作为4D生成的起始点。

由于4D数据的匮乏，需要尽可能的从先验模型中蒸馏信息。4DGen将每一帧生成的多视图作为2D伪标签，并且采用多视图生成的点云作为3D点的伪标签来监督训练过程。

因为多视图生成具有ill-posed的特点，得到的伪标签在不同视角之间，不同时序之间存在不连续性，需要引入时间和空间上的一致性损失函数进行约束。相较于拟合多视图DDIM采样得到的图片，score distillation sampling（SDS）是根据先验的扩散模型对场景表达进行似然估计。

4DGen依据正面视角计算任意视角图片在Zero123模型上的SDS损失，用于提升空间上的连续性。为了缓解闪烁问题，4DGen引入了无监督的时间平滑约束。通过计算平面的平滑损失和Gaussians不同时刻的平滑损失，有效提升了时间上的一致性。