Navimaster:首个统一数字和物理世界的导航模型,还能玩《我的世界》

3月 18, 2026·
汪旭鸿
汪旭鸿
· 1 分钟阅读时长
目录

论文链接 | 项目主页

摘要

在当今数字化与智能化快速发展的阶段,导航任务正同时发生在两个世界里:一类是在手机、桌面和网页界面中的 GUI 导航,另一类是在真实或仿真环境中的具身导航。虽然二者本质上都属于“根据观察、目标与历史执行动作”的问题,但长期以来却分别使用独立的数据集、独立的动作定义和独立的训练范式。

这种分裂直接带来了几个问题:

  • 各自独立建模,系统开发与部署成本高
  • 跨场景泛化能力不足,模型容易在分布外环境中失效
  • 强化学习奖励稀疏,训练效率偏低
  • 决策与执行不一致,容易出现“想对了但做错了”

NaviMaster 提出的核心观点非常直接:既然 GUI 与具身任务本质上都属于导航问题,就应该把它们放进同一个统一框架里学习。围绕这个想法,NaviMaster 将 GUI 与具身导航整合为“导航智能体”(Navigation Agent),在统一轨迹表示、统一强化学习框架和距离感知奖励设计的支持下,同时提升了跨任务泛化、训练效率和定位精度。

NaviMaster 总体框架

任务演示

空间定位

在空间定位任务中,模型需要根据视觉理解结果,在图像中指出满足约束的位置。

GUI 导航

在 GUI 导航任务中,模型需要直接理解界面状态,并完成点击、输入、等待等多步操作。

GUI 与具身混合任务

NaviMaster 不只支持单一模态导航,也能在更复杂的混合环境中结合导航与键鼠操作,例如在《我的世界》中执行任务。

为什么要统一 GUI 与具身导航

现有研究中,GUI 导航和具身导航往往被视作两套完全不同的技术问题。前者依赖屏幕元素、点击与滚动等动作,后者依赖视角变化、路径规划和空间移动。即便二者都可以抽象成马尔可夫决策过程,也很难直接共用同一套训练管线。

NaviMaster 的关键判断是:如果能统一动作空间、轨迹结构和训练输入方式,那么 GUI 与具身数据就可以在同一策略中共同发挥作用。这不仅能减少重复建模成本,更重要的是能够让模型学习到更抽象、更稳定的“导航能力”。

三大核心创新

1. 视觉-目标轨迹统一范式

NaviMaster 首先解决的是“数据说的不是同一种语言”这个问题。GUI 轨迹和具身轨迹虽然都包含观察、动作和目标,但动作空间和轨迹格式差别很大,难以直接联合训练。

为此,团队把两类任务统一到“视觉目标驱动”的轨迹范式中,并对动作空间做了系统对齐:

  • 特定动作保留原有定义,直接纳入统一动作空间
  • GUI 中的 [SCROLL] 与具身任务中的 [TURN] 都被离散化为统一方向变化
  • GUI 中的 [CLICK(x, y)] 与具身任务的前进类动作统一改写为显式目标点形式,例如 [MOVETO(x, y)]

在轨迹初始化上,GUI 轨迹来自 GUI-Odyssey 等现有数据集;具身轨迹则通过 A* 搜索抽取最短路径关键点,再映射为全局视觉目标序列。团队还进一步使用 GPT-4o 为每一步动作生成“意图”描述,让历史信息不只保留动作本身,还保留为什么这么做的解释,从而提升长程决策质量。

统一动作空间与轨迹生成流程

2. 统一强化学习框架

在轨迹统一之后,NaviMaster 直接在混合轨迹数据上进行 GRPO 强化学习,而不是先做冷启动预训练、再分别微调不同任务。GUI 与具身任务都被抽象为同一类决策过程:给定当前观察、任务指令与执行历史,模型从自然语言定义的动作空间中选择下一步动作。

训练时,团队同时混合 3D 具身数据与 2D GUI 数据,并保持两者数据量对齐。相比分别训练两个专用模型,这种统一优化方式更容易形成跨场景共享的导航先验。

3. 距离感知稠密奖励

为解决导航强化学习中的稀疏奖励问题,NaviMaster 将任务成功标准拆分为三部分:

  • 格式是否可执行
  • 动作类型是否正确
  • 目标位置是否足够接近真值

这种设计让模型不再只收到“成功 / 失败”的二元反馈,而是可以根据输出与目标之间的差距获得连续奖励。结果是训练更稳定,收敛更快,无效探索显著减少。

距离感知稠密奖励设计

实验亮点

GUI 导航

在 GUI 导航任务中,团队全部采用与训练分布完全隔离的 OOD 测试数据来衡量真正的泛化能力。结果显示,NaviMaster 在多个移动端、网页端和桌面端基准上都明显优于现有方法,在成功率指标上取得稳定领先。

更关键的是,混合 GUI 数据与具身数据训练的模型,在所有测试集上都表现出最优趋势,说明视觉目标轨迹和统一训练框架确实带来了跨域互补收益。

GUI 导航结果

空间定位

团队在四个空间定位基准上评估了模型。NaviMaster 在所有任务中均优于全部基线,说明其细粒度视觉-空间对齐能力显著增强。无论是物体级指代还是自由空间定位,模型都能给出更准确的响应。

空间定位结果

具身导航

在具身导航实验中,团队在 ObjectNav-unseen 上使用 VLMNav 框架,仅替换基模型来评估 NaviMaster 的贡献。结果表明,NaviMaster 是首个在该框架下具备稳定泛化能力的导航智能体模型。

同时,仅使用 GUI 数据或仅使用具身数据训练的版本,其成功率都会略低于混合训练版本,进一步验证了混合训练策略能够有效融合两种数据源的互补优势。

具身导航结果

深入分析

混合数据比例

综合表现在线性混合比例接近 5:5 时最好,说明跨域联合训练确实能够提升整体泛化能力。即使在比例不平衡时,混合训练通常仍优于单独使用一种数据训练。

混合数据比例分析

跨基座模型一致收益

Qwen2.5VL-7BQwen2.5VL-3BQwen2VL-7B 等不同基座模型上,NaviMaster 都带来一致性能增益,说明方法本身具备较强的可迁移性。

跨基座模型表现

数据规模与奖励机制

在小规模样本和更大规模样本下,统一训练依然保持稳定收益。同时,稠密奖励相比稀疏奖励在早期收敛更快、最终效果更优,进一步证明奖励设计是训练成功的关键因素之一。

不同数据规模表现

稠密奖励与稀疏奖励对比

NaviMaster 首次实现了 GUI 与具身导航的一体化学习,在跨任务泛化、训练效率和定位精度上都取得了系统性提升。它不只是一个新的导航模型,更像是统一多模态 Agent 的早期雏形。

从这个结果往前看,未来模型完全可能在统一框架下交错处理 GUI 任务与具身场景中的感知、推理和行动。走向统一,是多模态智能体未来非常重要的一条路线。

相关信息