image-20251214092354467

模型结构

image-20251214095443531

模型从 真实驾驶日志安全关键数据 中学习,分别对 智能体(Agent)地图(Map) 进行编码,然后输入到一个 Diffusion Transformer中。

智能体 token 用时间和去噪步骤进行编码,然后通过注意力机制与地图和动力学进行交互。

具有不同噪声的 token 在一个块内进行调度,以便及时做出反应。每个去噪步骤都会更新并弹出零噪声 token,用下一帧 token 替换它们,从而迭代生成场景。