自动驾驶行为仿真benchmark-WOSAC

核心大概就是看基准测试的含义和评估方法

目标

通过定义一个数据驱动的评估框架，并使用公开可访问的数据来实例化它，从而鼓励交通模拟器的设计。

整体框架

将驾驶建模为一个隐马尔可夫模型

不知道为什么这个表格传到博客一直公式格式不对，放弃了，就用图片吧

每个时刻的观测值 $o_t$ 被分为两部分：

$o_{t}^{AV}$ ：自动驾驶车辆 (AV) 的状态。

$o_{t}^{env}$ ：**环境 ** 的状态（虽然环境通常包含丰富特征，但在论文中， $o_{t}^{env}$ 仅包含非 AV 代理（如其他车辆、行人的位姿）。

任务

构建世界模型 $q_{world}(ot|oc<t)$ ,即根据历史观测信息 oc<t（包括静态地图、交通信号灯和历史轨迹）生成下一时刻的观测 ot

两个约束：

自回归性 : 模型必须以10Hz的频率自回归地运行T个步骤，重新观察更新后的场景并消耗它们之前的输出。（人话：闭环，使用自己前一步输出作为当前输入）

因子分解 : 世界模型 q_world 必须分解为自动驾驶汽车（AV）的策略 $π(o^{AV}_t|oc<t)$ 和环境动态模型 $q(o^{env}_t|oc<t)$ 的乘积。这意味着AV的行为模型和环境中其他智能体的行为模型是分离的。

也就是不允许开环生成的

挑战

真实世界的交通情况 p_world 具有多模态不确定性。在同一个历史场景 $s_{t-1}$ 下，未来可能有多种合理的发展方向。因此，一个优秀的模型（无论是AV策略 π 还是环境模型 q）必须能够捕捉并生成这种多模态的结果，而不是只给出一个最可能的预测。

通过比较模型生成的整个概率分布 p_world 与真实记录的数据集之间的匹配程度来评估性能。

评估

数据集

挑战赛使用Waymo开放运动数据集（WOMD）v1.2.0的测试集。每个场景包含1.1秒的历史数据和8秒的未来数据，频率为10Hz。参赛者需要仿真场景中所有在t=0时刻存在的智能体（车辆、骑行者、行人），最多128个。

评估方式

逼真智能体的定义： 智能体（仿真模型）生成的场景分布必须匹配在真实世界驾驶中观察到的实际场景分布。

如果我们知道真实世界分布 $p^{world}$ 的解析形式，我们应该最小化负对数似然

问题

真实世界的整个未来场景是一个高维数据点（对象，时间步，多种数据等等），难以直接计算其似然值。

许多生成模型只能采样，但无法进行点似然估计（即无法给出特定真实场景出现的精确概率）。挑战赛也只要求提交样本。

就是仿真模型可以生成 32 条合理的未来轨迹（采样）。但是，要让它精确计算“真实世界中，一辆车以 1.5m/s 的加速度、在十字路口右转”这个精确事件的概率无法实现。

解决

不直接计算整个场景的似然，而是将场景分解为更少数量的组件指标，然后将这些组件的 NLL 聚合成一个综合 NLL 指标。

对每个rollout，计算9个不同的组件指标。这些指标分为三类：

运动学指标: 线速度、线加速度、角速度、角加速度。

交互指标 : 到最近物体的距离、碰撞、碰撞时间（TTC）。

地图相关指标: 到路边的距离、偏离道路。

要求参赛者提交 32 个样本 。对这 32 个样本进行拟合，生成直方图，从而得到一个**分类分布 **。最终，基于这个分类分布来计算真实世界样本的近似 NLL。

最终的综合指标 MK 是所有9个组件指标NLL的加权平均值。为了强调安全性，碰撞和偏离道路这两个指标的权重是其他指标的2倍。

让AI写了一个例子稍微改了改，感觉能帮助理解：

对于一个特定的测试场景 $i$

你的模型提交了 32 个样本轨迹。

评估系统计算这 32 个样本中，所有 智能体 在所有 80 个时间步上的所有线加速度值。

$\text{总数据量} = 32 \text{ (样本)} \times 80 \text{ (时间步)} \times N \text{ (智能体数量)}$

所有这些数千个瞬时加速度值被合并成一个巨大的集合。这个集合就是你的模型 $q^{world}$ 在该场景下、该指标上的近似分布的基础。

然后，评估系统对这个巨大的集合拟合出一个单一的直方图。

接下来，评估系统处理真实数据：

取出真实世界日志中，所有智能体在所有 80 个时间步上的线加速度值。

对 每一个 真实的瞬时加速度值，评估系统都去查询它落在步骤 1 构建的直方图的哪个区间 $j$ 。

计算这个真实瞬时值的 NLL： $-\log(P_j)$ 。

指标 NLL： 最终的 $\text{NLL}_{\text{accel}}$ 是所有真实瞬时加速度值的 NLL 的平均值。