nexus论文阅读

模型结构

模型从 真实驾驶日志 和 安全关键数据 中学习,分别对 智能体(Agent) 和 地图(Map) 进行编码,然后输入到一个 Diffusion Transformer中。
智能体 token 用时间和去噪步骤进行编码,然后通过注意力机制与地图和动力学进行交互。
具有不同噪声的 token 在一个块内进行调度,以便及时做出反应。每个去噪步骤都会更新并弹出零噪声 token,用下一帧 token 替换它们,从而迭代生成场景。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Cosmos!
评论