LERF：当CLIP遇见NeRF！让自然语言与3D场景交互更直观

CVer 2023-03-24 1101

描述

NeRF 大家都很熟悉了，但是你听说过 LERF 吗？本文中，来自 UC 伯克利的研究者将语言嵌入到 NeRF 中，并在 3D 场景中实现灵活的自然语言查询。

NeRF（Neural Radiance Fields）又称神经辐射场，自从被提出以来，火速成为最为热门的研究领域之一，效果非常惊艳。然而，NeRF 的直接输出只是一个彩色的密度场，对研究者来说可用信息很少，缺乏上下文就是需要面对的问题之一，其效果是直接影响了与 3D 场景交互界面的构建。

但自然语言不同，自然语言与 3D 场景交互非常直观。我们可以用图 1 中的厨房场景来解释，通过询问餐具在哪，或者询问用来搅拌的工具在哪，以这种方式就可以在厨房里找到物体。不过完成这项任务不仅需要模型的查询能力，还需要能够在多个尺度上合并语义等。

本文中，来自 UC 伯克利的研究者提出了一种新颖的方法，并命名为 LERF（Language Embedded Radiance Fields），该方法将 CLIP（Contrastive Language-Image Pre-training）等模型中的语言嵌入到 NeRF 中，从而使得这些类型的 3D 开放式语言查询成为可能。LERF 直接使用 CLIP，无需通过 COCO 等数据集进行微调，也不需要依赖掩码区域建议。LERF 在多个尺度上保留了 CLIP 嵌入的完整性，还能够处理各种语言查询，包括视觉属性（如黄色）、抽象概念（如电流）、文本等，如图 1 所示。

Clip

论文地址：https://arxiv.org/abs/2303.09553

项目主页：https://www.lerf.io/

LERF 可以实时交互地为语言提示提取 3D 相关示图。例如在一张有小羊和水杯的桌子上，输入提示小羊、或者水杯，LERF 就可以给出相关 3D 图：

‍

Clip

对于复杂的花束，LERF 也可以精准定位：

‍

Clip

厨房中的不同物体：

Clip

方法

该研究通过与 NeRF 联合优化语言场构建了新方法 LERF。LERF 将位置和物理尺度作为输入并输出单个 CLIP 向量。在训练期间，场（field）使用多尺度特征金字塔（pyramid）进行监督，该金字塔包含从训练视图的图像裁剪（crop）生成的 CLIP 嵌入。这允许 CLIP 编码器捕获不同尺度的图像语境，从而将相同的 3D 位置与不同尺度的语言嵌入相关联。LERF 可以在测试期间以任意尺度查询语言场以获得 3D 相关性映射。

Clip