<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Navigation Agent | 汪旭鸿的个人主页</title><link>https://wangxuhongcn.github.io/tags/navigation-agent/</link><atom:link href="https://wangxuhongcn.github.io/tags/navigation-agent/index.xml" rel="self" type="application/rss+xml"/><description>Navigation Agent</description><generator>Hugo Blox Builder (https://hugoblox.com)</generator><language>zh-Hans</language><lastBuildDate>Wed, 18 Mar 2026 00:00:00 +0000</lastBuildDate><image><url>https://wangxuhongcn.github.io/media/icon_hu_982c5d63a71b2961.png</url><title>Navigation Agent</title><link>https://wangxuhongcn.github.io/tags/navigation-agent/</link></image><item><title>Navimaster:首个统一数字和物理世界的导航模型，还能玩《我的世界》</title><link>https://wangxuhongcn.github.io/post/navimaster-unified-navigation/</link><pubDate>Wed, 18 Mar 2026 00:00:00 +0000</pubDate><guid>https://wangxuhongcn.github.io/post/navimaster-unified-navigation/</guid><description>
&lt;details class="print:hidden xl:hidden" open>
&lt;summary>目录&lt;/summary>
&lt;div class="text-sm">
&lt;nav id="TableOfContents">
&lt;ul>
&lt;li>&lt;a href="#摘要">摘要&lt;/a>&lt;/li>
&lt;li>&lt;a href="#任务演示">任务演示&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#空间定位">空间定位&lt;/a>&lt;/li>
&lt;li>&lt;a href="#gui-导航">GUI 导航&lt;/a>&lt;/li>
&lt;li>&lt;a href="#gui-与具身混合任务">GUI 与具身混合任务&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#为什么要统一-gui-与具身导航">为什么要统一 GUI 与具身导航&lt;/a>&lt;/li>
&lt;li>&lt;a href="#三大核心创新">三大核心创新&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#1-视觉-目标轨迹统一范式">1. 视觉-目标轨迹统一范式&lt;/a>&lt;/li>
&lt;li>&lt;a href="#2-统一强化学习框架">2. 统一强化学习框架&lt;/a>&lt;/li>
&lt;li>&lt;a href="#3-距离感知稠密奖励">3. 距离感知稠密奖励&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#实验亮点">实验亮点&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#gui-导航-1">GUI 导航&lt;/a>&lt;/li>
&lt;li>&lt;a href="#空间定位-1">空间定位&lt;/a>&lt;/li>
&lt;li>&lt;a href="#具身导航">具身导航&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#深入分析">深入分析&lt;/a>
&lt;ul>
&lt;li>&lt;a href="#混合数据比例">混合数据比例&lt;/a>&lt;/li>
&lt;li>&lt;a href="#跨基座模型一致收益">跨基座模型一致收益&lt;/a>&lt;/li>
&lt;li>&lt;a href="#数据规模与奖励机制">数据规模与奖励机制&lt;/a>&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;a href="#navimaster揭开导航智能体的序幕">NaviMaster：揭开导航智能体的序幕&lt;/a>&lt;/li>
&lt;li>&lt;a href="#相关信息">相关信息&lt;/a>&lt;/li>
&lt;/ul>
&lt;/nav>
&lt;/div>
&lt;/details>
&lt;p>
|
&lt;/p>
&lt;h2 id="摘要">摘要&lt;/h2>
&lt;p>在当今数字化与智能化快速发展的阶段，导航任务正同时发生在两个世界里：一类是在手机、桌面和网页界面中的 GUI 导航，另一类是在真实或仿真环境中的具身导航。虽然二者本质上都属于“根据观察、目标与历史执行动作”的问题，但长期以来却分别使用独立的数据集、独立的动作定义和独立的训练范式。&lt;/p>
&lt;p>这种分裂直接带来了几个问题：&lt;/p>
&lt;ul>
&lt;li>各自独立建模，系统开发与部署成本高&lt;/li>
&lt;li>跨场景泛化能力不足，模型容易在分布外环境中失效&lt;/li>
&lt;li>强化学习奖励稀疏，训练效率偏低&lt;/li>
&lt;li>决策与执行不一致，容易出现“想对了但做错了”&lt;/li>
&lt;/ul>
&lt;p>NaviMaster 提出的核心观点非常直接：既然 GUI 与具身任务本质上都属于导航问题，就应该把它们放进同一个统一框架里学习。围绕这个想法，NaviMaster 将 GUI 与具身导航整合为“导航智能体”（Navigation Agent），在统一轨迹表示、统一强化学习框架和距离感知奖励设计的支持下，同时提升了跨任务泛化、训练效率和定位精度。&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="NaviMaster 总体框架"
srcset="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/featured_hu_5b518e6653adb07c.webp 320w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/featured_hu_a7ae85d185fd2a87.webp 480w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/featured_hu_6ef8d26e8366ca80.webp 650w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/featured_hu_5b518e6653adb07c.webp"
width="650"
height="437"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;h2 id="任务演示">任务演示&lt;/h2>
&lt;h3 id="空间定位">空间定位&lt;/h3>
&lt;p>在空间定位任务中，模型需要根据视觉理解结果，在图像中指出满足约束的位置。&lt;/p>
&lt;video controls >
&lt;source src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/spatial_refer_1.mp4" type="video/mp4">
&lt;/video>
&lt;h3 id="gui-导航">GUI 导航&lt;/h3>
&lt;p>在 GUI 导航任务中，模型需要直接理解界面状态，并完成点击、输入、等待等多步操作。&lt;/p>
&lt;video controls >
&lt;source src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/demo_contact.mp4" type="video/mp4">
&lt;/video>
&lt;h3 id="gui-与具身混合任务">GUI 与具身混合任务&lt;/h3>
&lt;p>NaviMaster 不只支持单一模态导航，也能在更复杂的混合环境中结合导航与键鼠操作，例如在《我的世界》中执行任务。&lt;/p>
&lt;video controls >
&lt;source src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/mc_kill.mp4" type="video/mp4">
&lt;/video>
&lt;h2 id="为什么要统一-gui-与具身导航">为什么要统一 GUI 与具身导航&lt;/h2>
&lt;p>现有研究中，GUI 导航和具身导航往往被视作两套完全不同的技术问题。前者依赖屏幕元素、点击与滚动等动作，后者依赖视角变化、路径规划和空间移动。即便二者都可以抽象成马尔可夫决策过程，也很难直接共用同一套训练管线。&lt;/p>
&lt;p>NaviMaster 的关键判断是：如果能统一动作空间、轨迹结构和训练输入方式，那么 GUI 与具身数据就可以在同一策略中共同发挥作用。这不仅能减少重复建模成本，更重要的是能够让模型学习到更抽象、更稳定的“导航能力”。&lt;/p>
&lt;h2 id="三大核心创新">三大核心创新&lt;/h2>
&lt;h3 id="1-视觉-目标轨迹统一范式">1. 视觉-目标轨迹统一范式&lt;/h3>
&lt;p>NaviMaster 首先解决的是“数据说的不是同一种语言”这个问题。GUI 轨迹和具身轨迹虽然都包含观察、动作和目标，但动作空间和轨迹格式差别很大，难以直接联合训练。&lt;/p>
&lt;p>为此，团队把两类任务统一到“视觉目标驱动”的轨迹范式中，并对动作空间做了系统对齐：&lt;/p>
&lt;ul>
&lt;li>特定动作保留原有定义，直接纳入统一动作空间&lt;/li>
&lt;li>GUI 中的 &lt;code>[SCROLL]&lt;/code> 与具身任务中的 &lt;code>[TURN]&lt;/code> 都被离散化为统一方向变化&lt;/li>
&lt;li>GUI 中的 &lt;code>[CLICK(x, y)]&lt;/code> 与具身任务的前进类动作统一改写为显式目标点形式，例如 &lt;code>[MOVETO(x, y)]&lt;/code>&lt;/li>
&lt;/ul>
&lt;p>在轨迹初始化上，GUI 轨迹来自 GUI-Odyssey 等现有数据集；具身轨迹则通过 A* 搜索抽取最短路径关键点，再映射为全局视觉目标序列。团队还进一步使用 GPT-4o 为每一步动作生成“意图”描述，让历史信息不只保留动作本身，还保留为什么这么做的解释，从而提升长程决策质量。&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="统一动作空间与轨迹生成流程"
srcset="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/unified-trajectory_hu_cbc4680082b5988b.webp 320w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/unified-trajectory_hu_17a68d65de19afc3.webp 480w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/unified-trajectory_hu_4fb10787132af661.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/unified-trajectory_hu_cbc4680082b5988b.webp"
width="760"
height="360"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;h3 id="2-统一强化学习框架">2. 统一强化学习框架&lt;/h3>
&lt;p>在轨迹统一之后，NaviMaster 直接在混合轨迹数据上进行 GRPO 强化学习，而不是先做冷启动预训练、再分别微调不同任务。GUI 与具身任务都被抽象为同一类决策过程：给定当前观察、任务指令与执行历史，模型从自然语言定义的动作空间中选择下一步动作。&lt;/p>
&lt;p>训练时，团队同时混合 3D 具身数据与 2D GUI 数据，并保持两者数据量对齐。相比分别训练两个专用模型，这种统一优化方式更容易形成跨场景共享的导航先验。&lt;/p>
&lt;h3 id="3-距离感知稠密奖励">3. 距离感知稠密奖励&lt;/h3>
&lt;p>为解决导航强化学习中的稀疏奖励问题，NaviMaster 将任务成功标准拆分为三部分：&lt;/p>
&lt;ul>
&lt;li>格式是否可执行&lt;/li>
&lt;li>动作类型是否正确&lt;/li>
&lt;li>目标位置是否足够接近真值&lt;/li>
&lt;/ul>
&lt;p>这种设计让模型不再只收到“成功 / 失败”的二元反馈，而是可以根据输出与目标之间的差距获得连续奖励。结果是训练更稳定，收敛更快，无效探索显著减少。&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="距离感知稠密奖励设计"
srcset="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/dense-reward_hu_8bf82bca478443aa.webp 320w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/dense-reward_hu_57943067c3c5071b.webp 480w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/dense-reward_hu_14b08cc95ebca748.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/dense-reward_hu_8bf82bca478443aa.webp"
width="760"
height="410"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;h2 id="实验亮点">实验亮点&lt;/h2>
&lt;h3 id="gui-导航-1">GUI 导航&lt;/h3>
&lt;p>在 GUI 导航任务中，团队全部采用与训练分布完全隔离的 OOD 测试数据来衡量真正的泛化能力。结果显示，NaviMaster 在多个移动端、网页端和桌面端基准上都明显优于现有方法，在成功率指标上取得稳定领先。&lt;/p>
&lt;p>更关键的是，混合 GUI 数据与具身数据训练的模型，在所有测试集上都表现出最优趋势，说明视觉目标轨迹和统一训练框架确实带来了跨域互补收益。&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="GUI 导航结果"
srcset="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/gui-results_hu_758df8cc7e536231.webp 320w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/gui-results_hu_f41d9c8668af553e.webp 480w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/gui-results_hu_5f1c8ea11f350a36.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/gui-results_hu_758df8cc7e536231.webp"
width="760"
height="206"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;h3 id="空间定位-1">空间定位&lt;/h3>
&lt;p>团队在四个空间定位基准上评估了模型。NaviMaster 在所有任务中均优于全部基线，说明其细粒度视觉-空间对齐能力显著增强。无论是物体级指代还是自由空间定位，模型都能给出更准确的响应。&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="空间定位结果"
srcset="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/spatial-results_hu_630e8cab4d777100.webp 320w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/spatial-results_hu_e7b78755729be878.webp 480w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/spatial-results_hu_8a4219c9fb5c705d.webp 578w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/spatial-results_hu_630e8cab4d777100.webp"
width="578"
height="196"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;h3 id="具身导航">具身导航&lt;/h3>
&lt;p>在具身导航实验中，团队在 ObjectNav-unseen 上使用 VLMNav 框架，仅替换基模型来评估 NaviMaster 的贡献。结果表明，NaviMaster 是首个在该框架下具备稳定泛化能力的导航智能体模型。&lt;/p>
&lt;p>同时，仅使用 GUI 数据或仅使用具身数据训练的版本，其成功率都会略低于混合训练版本，进一步验证了混合训练策略能够有效融合两种数据源的互补优势。&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="具身导航结果"
srcset="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/embodied-results_hu_fb94bf407241ce4c.webp 320w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/embodied-results_hu_a7214d633dc889ce.webp 373w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/embodied-results_hu_fb94bf407241ce4c.webp"
width="373"
height="155"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;h2 id="深入分析">深入分析&lt;/h2>
&lt;h3 id="混合数据比例">混合数据比例&lt;/h3>
&lt;p>综合表现在线性混合比例接近 &lt;code>5:5&lt;/code> 时最好，说明跨域联合训练确实能够提升整体泛化能力。即使在比例不平衡时，混合训练通常仍优于单独使用一种数据训练。&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="混合数据比例分析"
srcset="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/mix-ratio_hu_feacb3b8e2b828d3.webp 310w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/mix-ratio_hu_feacb3b8e2b828d3.webp"
width="310"
height="308"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;h3 id="跨基座模型一致收益">跨基座模型一致收益&lt;/h3>
&lt;p>在 &lt;code>Qwen2.5VL-7B&lt;/code>、&lt;code>Qwen2.5VL-3B&lt;/code>、&lt;code>Qwen2VL-7B&lt;/code> 等不同基座模型上，NaviMaster 都带来一致性能增益，说明方法本身具备较强的可迁移性。&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="跨基座模型表现"
srcset="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/cross-backbones_hu_78218f42b0e5441e.webp 320w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/cross-backbones_hu_534502e70a1f8447.webp 473w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/cross-backbones_hu_78218f42b0e5441e.webp"
width="473"
height="503"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;h3 id="数据规模与奖励机制">数据规模与奖励机制&lt;/h3>
&lt;p>在小规模样本和更大规模样本下，统一训练依然保持稳定收益。同时，稠密奖励相比稀疏奖励在早期收敛更快、最终效果更优，进一步证明奖励设计是训练成功的关键因素之一。&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="不同数据规模表现"
srcset="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/data-scale_hu_5b27d0df026a9aee.webp 308w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/data-scale_hu_5b27d0df026a9aee.webp"
width="308"
height="251"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="稠密奖励与稀疏奖励对比"
srcset="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/dense-vs-sparse_hu_369593fafcfe9fba.webp 320w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/dense-vs-sparse_hu_fe8733363f415914.webp 480w, https://wangxuhongcn.github.io/post/navimaster-unified-navigation/dense-vs-sparse_hu_8f982d68f3eefe59.webp 614w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/navimaster-unified-navigation/dense-vs-sparse_hu_369593fafcfe9fba.webp"
width="614"
height="252"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;h2 id="navimaster揭开导航智能体的序幕">NaviMaster：揭开导航智能体的序幕&lt;/h2>
&lt;p>NaviMaster 首次实现了 GUI 与具身导航的一体化学习，在跨任务泛化、训练效率和定位精度上都取得了系统性提升。它不只是一个新的导航模型，更像是统一多模态 Agent 的早期雏形。&lt;/p>
&lt;p>从这个结果往前看，未来模型完全可能在统一框架下交错处理 GUI 任务与具身场景中的感知、推理和行动。走向统一，是多模态智能体未来非常重要的一条路线。&lt;/p>
&lt;h2 id="相关信息">相关信息&lt;/h2>
&lt;ul>
&lt;li>论文题目：&lt;em>NaviMaster: Learning a Unified Policy for GUI and Embodied Navigation Tasks&lt;/em>&lt;/li>
&lt;li>项目主页：
&lt;/li>
&lt;/ul></description></item></channel></rss>