Navimaster:首个统一数字和物理世界的导航模型，还能玩《我的世界》

Wed, 18 Mar 2026 00:00:00 +0000

摘要

在当今数字化与智能化快速发展的阶段，导航任务正同时发生在两个世界里：一类是在手机、桌面和网页界面中的 GUI 导航，另一类是在真实或仿真环境中的具身导航。虽然二者本质上都属于“根据观察、目标与历史执行动作”的问题，但长期以来却分别使用独立的数据集、独立的动作定义和独立的训练范式。

这种分裂直接带来了几个问题：

各自独立建模，系统开发与部署成本高
跨场景泛化能力不足，模型容易在分布外环境中失效
强化学习奖励稀疏，训练效率偏低
决策与执行不一致，容易出现“想对了但做错了”

NaviMaster 提出的核心观点非常直接：既然 GUI 与具身任务本质上都属于导航问题，就应该把它们放进同一个统一框架里学习。围绕这个想法，NaviMaster 将 GUI 与具身导航整合为“导航智能体”（Navigation Agent），在统一轨迹表示、统一强化学习框架和距离感知奖励设计的支持下，同时提升了跨任务泛化、训练效率和定位精度。

任务演示

空间定位

在空间定位任务中，模型需要根据视觉理解结果，在图像中指出满足约束的位置。

GUI 导航

在 GUI 导航任务中，模型需要直接理解界面状态，并完成点击、输入、等待等多步操作。

GUI 与具身混合任务

NaviMaster 不只支持单一模态导航，也能在更复杂的混合环境中结合导航与键鼠操作，例如在《我的世界》中执行任务。

为什么要统一 GUI 与具身导航

现有研究中，GUI 导航和具身导航往往被视作两套完全不同的技术问题。前者依赖屏幕元素、点击与滚动等动作，后者依赖视角变化、路径规划和空间移动。即便二者都可以抽象成马尔可夫决策过程，也很难直接共用同一套训练管线。

NaviMaster 的关键判断是：如果能统一动作空间、轨迹结构和训练输入方式，那么 GUI 与具身数据就可以在同一策略中共同发挥作用。这不仅能减少重复建模成本，更重要的是能够让模型学习到更抽象、更稳定的“导航能力”。

三大核心创新

1. 视觉-目标轨迹统一范式

NaviMaster 首先解决的是“数据说的不是同一种语言”这个问题。GUI 轨迹和具身轨迹虽然都包含观察、动作和目标，但动作空间和轨迹格式差别很大，难以直接联合训练。

为此，团队把两类任务统一到“视觉目标驱动”的轨迹范式中，并对动作空间做了系统对齐：

特定动作保留原有定义，直接纳入统一动作空间
GUI 中的 [SCROLL] 与具身任务中的 [TURN] 都被离散化为统一方向变化
GUI 中的 [CLICK(x, y)] 与具身任务的前进类动作统一改写为显式目标点形式，例如 [MOVETO(x, y)]

在轨迹初始化上，GUI 轨迹来自 GUI-Odyssey 等现有数据集；具身轨迹则通过 A* 搜索抽取最短路径关键点，再映射为全局视觉目标序列。团队还进一步使用 GPT-4o 为每一步动作生成“意图”描述，让历史信息不只保留动作本身，还保留为什么这么做的解释，从而提升长程决策质量。

2. 统一强化学习框架

在轨迹统一之后，NaviMaster 直接在混合轨迹数据上进行 GRPO 强化学习，而不是先做冷启动预训练、再分别微调不同任务。GUI 与具身任务都被抽象为同一类决策过程：给定当前观察、任务指令与执行历史，模型从自然语言定义的动作空间中选择下一步动作。

训练时，团队同时混合 3D 具身数据与 2D GUI 数据，并保持两者数据量对齐。相比分别训练两个专用模型，这种统一优化方式更容易形成跨场景共享的导航先验。

3. 距离感知稠密奖励

为解决导航强化学习中的稀疏奖励问题，NaviMaster 将任务成功标准拆分为三部分：

格式是否可执行
动作类型是否正确
目标位置是否足够接近真值

这种设计让模型不再只收到“成功 / 失败”的二元反馈，而是可以根据输出与目标之间的差距获得连续奖励。结果是训练更稳定，收敛更快，无效探索显著减少。

实验亮点

GUI 导航

在 GUI 导航任务中，团队全部采用与训练分布完全隔离的 OOD 测试数据来衡量真正的泛化能力。结果显示，NaviMaster 在多个移动端、网页端和桌面端基准上都明显优于现有方法，在成功率指标上取得稳定领先。

更关键的是，混合 GUI 数据与具身数据训练的模型，在所有测试集上都表现出最优趋势，说明视觉目标轨迹和统一训练框架确实带来了跨域互补收益。

空间定位

团队在四个空间定位基准上评估了模型。NaviMaster 在所有任务中均优于全部基线，说明其细粒度视觉-空间对齐能力显著增强。无论是物体级指代还是自由空间定位，模型都能给出更准确的响应。

具身导航

在具身导航实验中，团队在 ObjectNav-unseen 上使用 VLMNav 框架，仅替换基模型来评估 NaviMaster 的贡献。结果表明，NaviMaster 是首个在该框架下具备稳定泛化能力的导航智能体模型。

同时，仅使用 GUI 数据或仅使用具身数据训练的版本，其成功率都会略低于混合训练版本，进一步验证了混合训练策略能够有效融合两种数据源的互补优势。

深入分析

混合数据比例

综合表现在线性混合比例接近 5:5 时最好，说明跨域联合训练确实能够提升整体泛化能力。即使在比例不平衡时，混合训练通常仍优于单独使用一种数据训练。

跨基座模型一致收益

在 Qwen2.5VL-7B、Qwen2.5VL-3B、Qwen2VL-7B 等不同基座模型上，NaviMaster 都带来一致性能增益，说明方法本身具备较强的可迁移性。

数据规模与奖励机制

在小规模样本和更大规模样本下，统一训练依然保持稳定收益。同时，稠密奖励相比稀疏奖励在早期收敛更快、最终效果更优，进一步证明奖励设计是训练成功的关键因素之一。

NaviMaster：揭开导航智能体的序幕

NaviMaster 首次实现了 GUI 与具身导航的一体化学习，在跨任务泛化、训练效率和定位精度上都取得了系统性提升。它不只是一个新的导航模型，更像是统一多模态 Agent 的早期雏形。

从这个结果往前看，未来模型完全可能在统一框架下交错处理 GUI 任务与具身场景中的感知、推理和行动。走向统一，是多模态智能体未来非常重要的一条路线。

Navigation Agent | 汪旭鸿的个人主页

Navimaster:首个统一数字和物理世界的导航模型，还能玩《我的世界》

摘要

任务演示

空间定位

GUI 导航

GUI 与具身混合任务

为什么要统一 GUI 与具身导航

三大核心创新

1. 视觉-目标轨迹统一范式

2. 统一强化学习框架

3. 距离感知稠密奖励

实验亮点

GUI 导航

空间定位

具身导航

深入分析

混合数据比例

跨基座模型一致收益

数据规模与奖励机制

NaviMaster：揭开导航智能体的序幕

相关信息