image-20251118113145219

Lumine旨在将VLA模型的指令跟随通用性与基于提示的智能体所展示的长期自主性相结合,寻求一个统一的框架,该框架能够通过推理驱动的规划和适应来完成各种扩展任务。

严重怀疑做长序列具身智能先拿原神试试水(doge),主要侧重方案和训练方法

模型

使用Qwen2-VL-7B-Base模型,以5 Hz的频率直接从原始像素感知游戏世界,并使用Action Trunking以30 Hz的频率自回归地生成文本键盘和鼠标动作。

混合推理策略

自适应推理: 模型能够灵活决定是否进入思考模式来生成明确的内心独白

目的: 只有在必要时(例如环境发生突变导致原计划失效、或任务完成需要提出新目标时)才调用推理,否则直接生成动作

image-20251118115035036

记忆管理机制

短期记忆 : 模型在上下文中动态维护最多 20 个最近的步骤(图像-动作对)作为滑动窗口

长期记忆 : 推理步骤被保留下来作为长期记忆,指导后续的行动生成 。

上下文刷新: 一旦生成新的推理,上下文就会被刷新,并从新的推理点重新积累 。

在上下文刷新上和上次看的那篇VLN的论文一样,采用streamingLLM,保护前几个token,丢弃先前交互记录,最大化 KV cache的重用

确保能在数小时的游戏保持连贯性

image-20251118114618638

image-20251118114449815

蚌埠住了,你说的对 但是原神。。。.jpg

训练

简单瞟了几眼,但感觉他的核心就在这里

image-20251118115415666

训练阶段 产出模型 核心目标 输入数据 关键能力
1. 预训练 Lumine-Base 学习基础动作原语 大规模的图像-动作数据。 将视觉感知映射到基础操作。
2. 指令跟随 Lumine-Instruct 实现语言落地 指令-图像-动作三元组。 理解并遵循自然语言指令。
3. 推理 Lumine-Thinking 赋予明确推理能力,实现混合思考策略。 思考-图像-动作数据(将指令替换为思考,可选预置新的思考)。 策略规划、行为反思、处理长时任务。

image-20251118115554653

i) 从2424小时的同步视频-动作数据开始,我们首先应用基于规则的过滤,生成一个1731小时的预训练数据集。

ii) 对其中的165小时子集进行人工标注,以进行指令级活动,用于训练一个分类器,该分类器自动标记所有原始数据,并通过GPT-4.1的字幕和动作过滤进一步提炼为200小时的高质量指令跟随数据。

iii) 同时,15小时的手动标注推理数据支持Lumine混合思维的训练。

表现

领域内性能:

主线任务: 成功完成了整个长达五小时的蒙德主线剧情,效率媲美人类水平

任务范围: 能够遵循自然语言指令,在 3D 开放世界探索和 2D GUI 操作中执行广泛的任务,包括采集、战斗、解谜和 NPC 互动

跨游戏泛化能力:

Lumine 展示了强大的零样本跨游戏泛化能力无需任何微调

《鸣潮》: 成功完成了 100 分钟的任务,堪比人类水平

《崩坏:星穹铁道》: 成功完成了长达五小时的完整第一章,由于游戏机制的差异慢了一点。

黑猴就玩着不行了,O(∩_∩)O哈哈~