3D开放世界通用智能体

Lumine旨在将VLA模型的指令跟随通用性与基于提示的智能体所展示的长期自主性相结合，寻求一个统一的框架，该框架能够通过推理驱动的规划和适应来完成各种扩展任务。

严重怀疑做长序列具身智能先拿原神试试水(doge)，主要侧重方案和训练方法

模型

使用Qwen2-VL-7B-Base模型，以5 Hz的频率直接从原始像素感知游戏世界，并使用Action Trunking以30 Hz的频率自回归地生成文本键盘和鼠标动作。

自适应推理: 模型能够灵活决定是否进入思考模式来生成明确的内心独白 。

目的: 只有在必要时（例如环境发生突变导致原计划失效、或任务完成需要提出新目标时）才调用推理，否则直接生成动作

短期记忆 : 模型在上下文中动态维护最多 20 个最近的步骤（图像-动作对）作为滑动窗口 。

长期记忆 : 推理步骤被保留下来作为长期记忆，指导后续的行动生成。

上下文刷新: 一旦生成新的推理，上下文就会被刷新，并从新的推理点重新积累。

在上下文刷新上和上次看的那篇VLN的论文一样，采用streamingLLM,保护前几个token，丢弃先前交互记录，最大化 KV cache的重用

确保能在数小时的游戏保持连贯性

蚌埠住了，你说的对但是原神。。。.jpg

简单瞟了几眼，但感觉他的核心就在这里

训练阶段	产出模型	核心目标	输入数据	关键能力
1. 预训练	Lumine-Base	学习基础动作原语。	大规模的图像-动作数据。	将视觉感知映射到基础操作。
2. 指令跟随	Lumine-Instruct	实现语言落地。	指令-图像-动作三元组。	理解并遵循自然语言指令。
3. 推理	Lumine-Thinking	赋予明确推理能力，实现混合思考策略。	思考-图像-动作数据（将指令替换为思考，可选预置新的思考）。	策略规划、行为反思、处理长时任务。