Embodied AI | 汪旭鸿的个人主页

Navimaster:首个统一数字和物理世界的导航模型，还能玩《我的世界》

Wed, 18 Mar 2026 00:00:00 +0000

摘要

在当今数字化与智能化快速发展的阶段，导航任务正同时发生在两个世界里：一类是在手机、桌面和网页界面中的 GUI 导航，另一类是在真实或仿真环境中的具身导航。虽然二者本质上都属于“根据观察、目标与历史执行动作”的问题，但长期以来却分别使用独立的数据集、独立的动作定义和独立的训练范式。

这种分裂直接带来了几个问题：

各自独立建模，系统开发与部署成本高
跨场景泛化能力不足，模型容易在分布外环境中失效
强化学习奖励稀疏，训练效率偏低
决策与执行不一致，容易出现“想对了但做错了”

NaviMaster 提出的核心观点非常直接：既然 GUI 与具身任务本质上都属于导航问题，就应该把它们放进同一个统一框架里学习。围绕这个想法，NaviMaster 将 GUI 与具身导航整合为“导航智能体”（Navigation Agent），在统一轨迹表示、统一强化学习框架和距离感知奖励设计的支持下，同时提升了跨任务泛化、训练效率和定位精度。

任务演示

空间定位

在空间定位任务中，模型需要根据视觉理解结果，在图像中指出满足约束的位置。

GUI 导航

在 GUI 导航任务中，模型需要直接理解界面状态，并完成点击、输入、等待等多步操作。

GUI 与具身混合任务

NaviMaster 不只支持单一模态导航，也能在更复杂的混合环境中结合导航与键鼠操作，例如在《我的世界》中执行任务。

为什么要统一 GUI 与具身导航

现有研究中，GUI 导航和具身导航往往被视作两套完全不同的技术问题。前者依赖屏幕元素、点击与滚动等动作，后者依赖视角变化、路径规划和空间移动。即便二者都可以抽象成马尔可夫决策过程，也很难直接共用同一套训练管线。

NaviMaster 的关键判断是：如果能统一动作空间、轨迹结构和训练输入方式，那么 GUI 与具身数据就可以在同一策略中共同发挥作用。这不仅能减少重复建模成本，更重要的是能够让模型学习到更抽象、更稳定的“导航能力”。

三大核心创新

1. 视觉-目标轨迹统一范式

NaviMaster 首先解决的是“数据说的不是同一种语言”这个问题。GUI 轨迹和具身轨迹虽然都包含观察、动作和目标，但动作空间和轨迹格式差别很大，难以直接联合训练。

为此，团队把两类任务统一到“视觉目标驱动”的轨迹范式中，并对动作空间做了系统对齐：

特定动作保留原有定义，直接纳入统一动作空间
GUI 中的 [SCROLL] 与具身任务中的 [TURN] 都被离散化为统一方向变化
GUI 中的 [CLICK(x, y)] 与具身任务的前进类动作统一改写为显式目标点形式，例如 [MOVETO(x, y)]

在轨迹初始化上，GUI 轨迹来自 GUI-Odyssey 等现有数据集；具身轨迹则通过 A* 搜索抽取最短路径关键点，再映射为全局视觉目标序列。团队还进一步使用 GPT-4o 为每一步动作生成“意图”描述，让历史信息不只保留动作本身，还保留为什么这么做的解释，从而提升长程决策质量。

2. 统一强化学习框架

在轨迹统一之后，NaviMaster 直接在混合轨迹数据上进行 GRPO 强化学习，而不是先做冷启动预训练、再分别微调不同任务。GUI 与具身任务都被抽象为同一类决策过程：给定当前观察、任务指令与执行历史，模型从自然语言定义的动作空间中选择下一步动作。

训练时，团队同时混合 3D 具身数据与 2D GUI 数据，并保持两者数据量对齐。相比分别训练两个专用模型，这种统一优化方式更容易形成跨场景共享的导航先验。

3. 距离感知稠密奖励

为解决导航强化学习中的稀疏奖励问题，NaviMaster 将任务成功标准拆分为三部分：

格式是否可执行
动作类型是否正确
目标位置是否足够接近真值

这种设计让模型不再只收到“成功 / 失败”的二元反馈，而是可以根据输出与目标之间的差距获得连续奖励。结果是训练更稳定，收敛更快，无效探索显著减少。

实验亮点

GUI 导航

在 GUI 导航任务中，团队全部采用与训练分布完全隔离的 OOD 测试数据来衡量真正的泛化能力。结果显示，NaviMaster 在多个移动端、网页端和桌面端基准上都明显优于现有方法，在成功率指标上取得稳定领先。

更关键的是，混合 GUI 数据与具身数据训练的模型，在所有测试集上都表现出最优趋势，说明视觉目标轨迹和统一训练框架确实带来了跨域互补收益。

空间定位

团队在四个空间定位基准上评估了模型。NaviMaster 在所有任务中均优于全部基线，说明其细粒度视觉-空间对齐能力显著增强。无论是物体级指代还是自由空间定位，模型都能给出更准确的响应。

具身导航

在具身导航实验中，团队在 ObjectNav-unseen 上使用 VLMNav 框架，仅替换基模型来评估 NaviMaster 的贡献。结果表明，NaviMaster 是首个在该框架下具备稳定泛化能力的导航智能体模型。

同时，仅使用 GUI 数据或仅使用具身数据训练的版本，其成功率都会略低于混合训练版本，进一步验证了混合训练策略能够有效融合两种数据源的互补优势。

深入分析

混合数据比例

综合表现在线性混合比例接近 5:5 时最好，说明跨域联合训练确实能够提升整体泛化能力。即使在比例不平衡时，混合训练通常仍优于单独使用一种数据训练。

跨基座模型一致收益

在 Qwen2.5VL-7B、Qwen2.5VL-3B、Qwen2VL-7B 等不同基座模型上，NaviMaster 都带来一致性能增益，说明方法本身具备较强的可迁移性。

数据规模与奖励机制

在小规模样本和更大规模样本下，统一训练依然保持稳定收益。同时，稠密奖励相比稀疏奖励在早期收敛更快、最终效果更优，进一步证明奖励设计是训练成功的关键因素之一。

NaviMaster：揭开导航智能体的序幕

NaviMaster 首次实现了 GUI 与具身导航的一体化学习，在跨任务泛化、训练效率和定位精度上都取得了系统性提升。它不只是一个新的导航模型，更像是统一多模态 Agent 的早期雏形。

从这个结果往前看，未来模型完全可能在统一框架下交错处理 GUI 任务与具身场景中的感知、推理和行动。走向统一，是多模态智能体未来非常重要的一条路线。

SafeVerse：构建安全可信的具身智能“孪生演练场”

Tue, 10 Feb 2026 00:00:00 +0000

摘要

安全可信是具身智能走向真实世界的前提，但直接在现实环境中进行攻防演练，往往同时面临成本高、风险大、复现难的问题。SafeVerse 的核心目标，就是先把指定真实场景快速数字化，再把这个高保真孪生环境变成可攻击、可评测、可进化的训练与验证平台。

与只追求“生成一个看起来像真的世界”的世界模型不同，SafeVerse 走的是一条更偏工程闭环的路线：它强调把真实场景以低成本、分钟级的方式重建为可操作的三维环境，并让这个环境直接服务于具身智能体的安全评测、攻防对抗与在线强化学习。

为什么需要 SafeVerse

当前具身智能虚拟环境往往陷入两难：

传统仿真环境依赖大量人工建模，资产匮乏、可操作对象有限，难以复现真实环境中的复杂结构与细粒度交互。
生成式世界模型虽然具有很强的开放世界生成能力，但它们不是对指定真实场景的精准孪生，难以支撑家庭、办公室、工厂等特定空间中的安全演练。

SafeVerse 对应的判断很直接：安全演练需要的不是“想象中的世界”，而是“可控、可编辑、可验证的真实场景数字化副本”。因此它把问题拆成三步：

从视频快速重建真实场景。
根据攻防目标灵活编辑场景。
让智能体在持续对抗中在线进化。

三大核心突破

SafeVerse 的设计集中在三个方向：

真实世界的 Ctrl+C / Ctrl+V：不仅复刻视觉外观，还尽量保留结构、语义与交互逻辑的一致性。
分钟级构建，万物皆可动：普通视频即可驱动三维场景搭建，并赋予门、灯、桌椅等对象部件级操作属性。
评测-攻防-进化一体化：场景既能用于静态验证，也能根据攻击指令实时变化，并直接接入在线 RL 训练。

这意味着 SafeVerse 不只是一个仿真器，更像是面向安全可信具身智能的数字孪生基础设施。

从普通视频到可交互孪生场景

SafeVerse 的第一步是把真实世界“读懂”。与传统三维重建流程不同，它更强调利用多模态大模型的视觉理解能力，把视频中的对象、布局与语义关系解析出来，再映射为可操作的三维实体。

在底层实现上，SafeVerse 依托具备丰富物理规则的 Minecraft 平台，将视频中识别出的元素自动转换为三维对象，并补齐交互属性。于是生成的并不是一块静态背景板，而是一个可以被智能体真正进入、探索、开门、关灯、移动物体的动态环境。

上面四段 GIF 展示了从输入视频到可交互三维场景的快速构建过程。原网页的核心结论是：SafeVerse 把“视频输入 + 分钟级输出”的流程真正落到了可操作环境上，而不是只做视觉复现。

遵循攻防指令的场景编辑

仅仅把场景还原出来还不够。真正面向安全验证时，更关键的是能否针对攻击目标快速改动环境。

SafeVerse 在这一步强调“真实性”和“可编辑性”的统一。已经构建好的孪生环境可以根据攻防需求被直接修改，包括：

调整对象的交互属性，例如把“可推开的门”改成“必须先解锁才能打开”。
改变视觉语义，例如更换物体外观来误导识别。
打乱空间布局，例如重置桌椅或障碍物位置来干扰路径规划。

这类编辑不再依赖重新手工建模，而是把“攻击向量”直接注入场景本身，让具身智能体在高度拟真但不断变化的环境里接受有针对性的压力测试。

针对漏洞的在线进化

SafeVerse 的最后一步不是停在评测，而是继续走向在线进化。

传统具身训练常常基于固定数据集和静态环境，一旦遭遇训练时没见过的攻击方式或环境突变，智能体就容易性能崩塌。SafeVerse 试图用“重建-攻击-抗攻击”的闭环来解决这个问题：场景先被重建，再被动态攻击，智能体则在失败后立即进入在线再训练。

这种设置让智能体面对的不是一成不变的 benchmark，而是持续演化的威胁。例如通道被椅子堵住、场景布局被重排、设备状态发生变化时，模型需要重新感知、规划与操作，而不是简单复读历史轨迹。

原网页里给出的例子非常直观：当通向目标的必经路径被椅子挡住时，智能体最初会失败；经过在线训练后，它能学会识别障碍、绕行，甚至主动移开椅子重新打通路径。这说明 SafeVerse 不只是让模型“遇到问题”，而是让模型“在问题里长出来”。

SafeVerse 全动态过程

下面这段视频补全了原网页中“全动态过程”的演示，能更完整地看到场景重建、编辑与在线进化串起来之后的整体效果。

您的浏览器不支持播放此视频。

这篇工作说明了什么

SafeVerse 的价值，不只是又做了一个具身仿真平台，而是把指定真实场景的快速数字化、面向攻击目标的场景编辑、以及在线强化学习进化，首次打通到同一个闭环里。

如果说很多具身平台擅长提供训练空间，那么 SafeVerse 更强调提供安全演练空间。它把“真实场景数字化”真正变成了安全可信具身智能研究中的基础能力。

Embodied AI | 汪旭鸿的个人主页

Navimaster:首个统一数字和物理世界的导航模型，还能玩《我的世界》

摘要

任务演示

空间定位

GUI 导航

GUI 与具身混合任务

为什么要统一 GUI 与具身导航

三大核心创新

1. 视觉-目标轨迹统一范式

2. 统一强化学习框架

3. 距离感知稠密奖励

实验亮点

GUI 导航

空间定位

具身导航

深入分析

混合数据比例

跨基座模型一致收益

数据规模与奖励机制

NaviMaster：揭开导航智能体的序幕

相关信息

SafeVerse：构建安全可信的具身智能“孪生演练场”

摘要

为什么需要 SafeVerse

三大核心突破

从普通视频到可交互孪生场景

遵循攻防指令的场景编辑

针对漏洞的在线进化

SafeVerse 全动态过程

这篇工作说明了什么

相关链接