JanusVLN论文阅读

高德和西交最近的论文，这几天要开源

概括

JanusVLN具有双重隐式神经记忆，将空间几何记忆和视觉语义记忆建模为独立的、紧凑的、固定大小的神经表征。该框架首先扩展了 MLLM，使其能够整合来自空间几何编码器的 3D 先验知识，从而增强了仅基于 RGB 输入的模型的空间推理能力。然后，将来自空间几何和视觉语义编码器的历史键值（KV）缓存构建成双重隐式记忆。通过仅保留初始和滑动窗口中令牌的 KV，避免了冗余计算，从而实现了高效的增量更新。

与先前研究的对比

VLN方法局限

当前主流的基于MLLM的VLN方法普遍依赖显式记忆机制（如文本拓扑地图、历史图像序列）：

语义认知地图： 使用纯文本描述对象节点和关系边（MapNav，后面可以看下）。

存储历史观测帧： 存储过去的视觉输入（Uni-NaVid）。

这会带来三个问题：

空间信息失真与丢失：基于文本认知地图的方法将视觉观测转化为离散的文字描述，然而，纯文本描述难以精确传达物体的空间关系与方位，导致关键视觉、空间几何及上下文信息的丢失。

计算效率低下：每一步决策需重复编码全部历史观测与当前帧，计算开销随导航步数线性增长，严重制约了模型的实时响应能力。

记忆指数级增长： 在这两种方法中，显式语义记忆都会随着导航时间的增加而呈指数增长。这导致记忆变得庞大、杂乱和分散，模型难以从中提取关键信息，效率严重低下。

用于仅RGB导航的多模态大型语言模型

为了提升空间理解，一些最新研究开始探索使用单目RGB-D视觉。但其昂贵的深度摄像头。在许多实际应用场景（如家庭机器人、手机导航）中并没有这种硬件，因此限制了其现实世界的应用。

利用仅RGB视频模型来构建单目VLN系统（NaVid），旨在增强泛化能力和实用价值。然而，这些研究中的智能体通常只构建显式语义记忆，并且仅依赖于单个前置RGB摄像头，这对空间理解提出了重大挑战，并且通常需要大量的辅助数据来提高性能。

通过视觉-语言模型进行空间推理

越来越多的研究（SpatialVLM）努力旨在提升视觉-语言模型（VLM）的空间推理能力，先前的研究主要集中在将3D数据（例如，点云、深度图 NaVid-4D）整合到VLM中，以向其注入显式的空间信息。然而，这些方法通常依赖于昂贵的辅助硬件，限制了它们在实际应用中的可行性。

虽然一些最近的方法利用空间编码器直接从视频中提取空间信息，但它们需要在每个新帧到达时重新处理整个序列，从而导致显著计算冗余。

根本性的矛盾

导航本质上是一种 3D 物理交互，但现有 VLA 模型的可视化编码器几乎完全继承了在 2D 图像-文本对上预训练的 CLIP 范式。这种方法使这些编码器能够擅长捕捉高层次的语义信息，但却使它们在理解 3D 几何结构和空间信息方面存在不足，天然忽略了2D图像中蕴含的透视，遮挡等丰富的三维空间线索。

实现

语义记忆：由2D视觉语义编码器（基于Qwen2.5-VL）提取“这是什么”的高层语义；
空间几何记忆：由3D空间几何编码器（基于预训练VGGT模型）推断“它在哪里及空间关系如何”的三维结构。该编码器仅需普通的 RGB 视频流就能推断出场景的三维结构信息，赋予模型强大的空间感知能力。

[2503.11651] VGGT: Visual Geometry Grounded Transformer

三月份的论文，后面可以看下

混合增量更新策略

维护一个保留初始几帧的“初始窗口”，永久保留它的键值（KV）缓存（作为全局锚点，维持长时序任务一致性）和一个缓存最近 N 帧的“滑动窗口”，确保对近期环境的敏锐感知。每步仅处理当前帧，并通过注意力机制直接复用历史隐式记忆，避免对历史帧的重复计算，推理效率显著提升。

滑动窗口是一个通用优化思想，源自2020年发表的Longformer论文。

初始窗口是基于先前的研究[2309.17453] Efficient Streaming Language Models with Attention Sinks
论文中发现最开头的几个token(即initial tokens)尽管从整体生成内容的语义上感觉没那么重要，但是它们的attention score一直很高，分析认为造成这个现象的原因应该和Softmax有关。另外，生成式模型本身autoregressive的本质也使得initial tokens肯定会被后续所有生成的token所关注(attend)，实际上带来了过度的关注，因此这些initial tokens的attention score会很高，直接把它们去掉肯定会带来问题。

由于VGGT需要重新处理整个序列，因此其推理时间随着每个新帧的增加而呈指数增长，导致在仅有48帧的情况下，48G GPU上出现内存不足错误。相比之下，该方法避免了重新处理历史帧，使其推理时间仅略有增加，从而表现出卓越的效率。

将语义与空间记忆解耦，这两种记忆均以神经网络深度处理后的键值（KV）缓存作为载体，形成紧凑、高效的隐式表征，而非存储原始的高维观测数据。

总的框架

给定一个仅RGB的视频流和导航指令，JanusVLN利用双编码器分别提取视觉语义和空间几何特征。它同时将来自初始滑动窗口和最近滑动窗口的历史键值缓存到双重隐式记忆中，以方便特征重用并防止冗余计算。最后，这两个互补的特征被融合并输入到LLM中，以预测下一个动作。

结果

与SOTA方法对比	关键指标 (SR/SPL)	JanusVLN 性能提升幅度	核心结论
使用全景视图 & 里程计等方法	SR	+10.5 至 +35.5	仅用单目RGB，效果远超多种输入类型的方法
使用额外3D深度数据的方法 (如 g3DLF, NaVid-4D)	SR	+12.6 至 +16.7	无需深度数据，空间理解能力反而更强
采用显式文本认知地图的方法 (如 MapNav)	SR	+20.8	双重隐式记忆优于显式文本地图
依赖历史帧的方法 (如 NaVILA, StreamVLN)	SR	+10.8 与 +3.6	使用更少辅助数据，性能更优
使用相当数量数据时 (vs. NaVILA, StreamVLN)	SR	+10.8 至 +15.0	在公平对比下，优势依然明显
无任何额外数据时 (JanusVLN*)	SPL	+3.7 至 +18.8	即使零额外数据，导航效率仍更高
在RxR-CE数据集上	SR	+3.3 至 +30.7	展现出卓越的泛化能力