AI Safety | 汪旭鸿的个人主页

SafeVerse：构建安全可信的具身智能“孪生演练场”

Tue, 10 Feb 2026 00:00:00 +0000

摘要

安全可信是具身智能走向真实世界的前提，但直接在现实环境中进行攻防演练，往往同时面临成本高、风险大、复现难的问题。SafeVerse 的核心目标，就是先把指定真实场景快速数字化，再把这个高保真孪生环境变成可攻击、可评测、可进化的训练与验证平台。

与只追求“生成一个看起来像真的世界”的世界模型不同，SafeVerse 走的是一条更偏工程闭环的路线：它强调把真实场景以低成本、分钟级的方式重建为可操作的三维环境，并让这个环境直接服务于具身智能体的安全评测、攻防对抗与在线强化学习。

为什么需要 SafeVerse

当前具身智能虚拟环境往往陷入两难：

传统仿真环境依赖大量人工建模，资产匮乏、可操作对象有限，难以复现真实环境中的复杂结构与细粒度交互。
生成式世界模型虽然具有很强的开放世界生成能力，但它们不是对指定真实场景的精准孪生，难以支撑家庭、办公室、工厂等特定空间中的安全演练。

SafeVerse 对应的判断很直接：安全演练需要的不是“想象中的世界”，而是“可控、可编辑、可验证的真实场景数字化副本”。因此它把问题拆成三步：

从视频快速重建真实场景。
根据攻防目标灵活编辑场景。
让智能体在持续对抗中在线进化。

三大核心突破

SafeVerse 的设计集中在三个方向：

真实世界的 Ctrl+C / Ctrl+V：不仅复刻视觉外观，还尽量保留结构、语义与交互逻辑的一致性。
分钟级构建，万物皆可动：普通视频即可驱动三维场景搭建，并赋予门、灯、桌椅等对象部件级操作属性。
评测-攻防-进化一体化：场景既能用于静态验证，也能根据攻击指令实时变化，并直接接入在线 RL 训练。

这意味着 SafeVerse 不只是一个仿真器，更像是面向安全可信具身智能的数字孪生基础设施。

从普通视频到可交互孪生场景

SafeVerse 的第一步是把真实世界“读懂”。与传统三维重建流程不同，它更强调利用多模态大模型的视觉理解能力，把视频中的对象、布局与语义关系解析出来，再映射为可操作的三维实体。

在底层实现上，SafeVerse 依托具备丰富物理规则的 Minecraft 平台，将视频中识别出的元素自动转换为三维对象，并补齐交互属性。于是生成的并不是一块静态背景板，而是一个可以被智能体真正进入、探索、开门、关灯、移动物体的动态环境。

上面四段 GIF 展示了从输入视频到可交互三维场景的快速构建过程。原网页的核心结论是：SafeVerse 把“视频输入 + 分钟级输出”的流程真正落到了可操作环境上，而不是只做视觉复现。

遵循攻防指令的场景编辑

仅仅把场景还原出来还不够。真正面向安全验证时，更关键的是能否针对攻击目标快速改动环境。

SafeVerse 在这一步强调“真实性”和“可编辑性”的统一。已经构建好的孪生环境可以根据攻防需求被直接修改，包括：

调整对象的交互属性，例如把“可推开的门”改成“必须先解锁才能打开”。
改变视觉语义，例如更换物体外观来误导识别。
打乱空间布局，例如重置桌椅或障碍物位置来干扰路径规划。

这类编辑不再依赖重新手工建模，而是把“攻击向量”直接注入场景本身，让具身智能体在高度拟真但不断变化的环境里接受有针对性的压力测试。

针对漏洞的在线进化

SafeVerse 的最后一步不是停在评测，而是继续走向在线进化。

传统具身训练常常基于固定数据集和静态环境，一旦遭遇训练时没见过的攻击方式或环境突变，智能体就容易性能崩塌。SafeVerse 试图用“重建-攻击-抗攻击”的闭环来解决这个问题：场景先被重建，再被动态攻击，智能体则在失败后立即进入在线再训练。

这种设置让智能体面对的不是一成不变的 benchmark，而是持续演化的威胁。例如通道被椅子堵住、场景布局被重排、设备状态发生变化时，模型需要重新感知、规划与操作，而不是简单复读历史轨迹。

原网页里给出的例子非常直观：当通向目标的必经路径被椅子挡住时，智能体最初会失败；经过在线训练后，它能学会识别障碍、绕行，甚至主动移开椅子重新打通路径。这说明 SafeVerse 不只是让模型“遇到问题”，而是让模型“在问题里长出来”。

SafeVerse 全动态过程

下面这段视频补全了原网页中“全动态过程”的演示，能更完整地看到场景重建、编辑与在线进化串起来之后的整体效果。

您的浏览器不支持播放此视频。

这篇工作说明了什么

SafeVerse 的价值，不只是又做了一个具身仿真平台，而是把指定真实场景的快速数字化、面向攻击目标的场景编辑、以及在线强化学习进化，首次打通到同一个闭环里。

如果说很多具身平台擅长提供训练空间，那么 SafeVerse 更强调提供安全演练空间。它把“真实场景数字化”真正变成了安全可信具身智能研究中的基础能力。

SafeWork-R1：AI-45°平衡律引领下的智能与安全协同进化

Sat, 12 Jul 2025 00:00:00 +0000

摘要

SafeWork-R1 讨论的不是“安全会不会拖累能力”，而是如何让安全性、推理能力与交互质量一起提升。围绕这个目标，团队提出了通用安全加固框架 SafeLadder，并在其上训练出多模态推理模型 SafeWork-R1。

从结果上看，这不是一个只会“保守拒答”的安全模型。相反，SafeWork-R1 一方面在安全 benchmark 上相对基础模型 Qwen2.5-VL-72B 提升了 46.54%，另一方面在七个通用推理与多模态 benchmark 上平均提升 13.45%，说明它追求的是“安全与能力协同演化”，而不是单纯拿能力换安全。

为什么要重新讨论安全与能力的关系

近年来大语言模型尤其是推理模型发展极快，但能力与安全之间的差距也在同步拉大。模型越来越能算、越来越会答，不代表它天然更符合伦理、规范与真实世界应用的安全约束。

SafeWork-R1 背后的一个核心观点是所谓的 AI-45° 平衡律：真正值得追求的模型，不应只沿着“能力”单轴上升，而应该沿着“能力与安全同步提升”的方向推进。

原网页中给出的结论很明确：如果底座模型足够强，并且训练设计得当，那么安全性与通用能力并不是零和关系。

SafeWork-R1 的安全性与通用能力

SafeWork-R1 依托 SafeLadder 框架构建，目标是把安全机制深度融入多模态模型的原生能力体系，而不是在推理末端附加一层简单的后处理过滤。

关键结果包括：

相比 Qwen2.5-VL-72B，在安全类基准测试上平均提升 46.54%
在 MMMU、MathVista、GPQA、Olympiad、Gaokao-MM、IFEVAL、MM-IFEval 七个通用基准上平均提升 13.45%
其中 MMMU 为 70.94，MathVista 为 76.1，Gaokao-MM 为 78.17
SafeLadder 还被进一步迁移到 SafeWork-R1-InternVL-78B、SafeWork-R1-DeepSeek-70B、SafeWork-R1-QwenVL-7B 等不同模型上，验证了框架的适应性

从这些结果看，SafeWork-R1 不是只在安全 benchmark 上有优势，也不是牺牲开放任务能力来换安全分数，而是把两者同时拉高。

SafeLadder 的技术路线图

SafeLadder 采用的是一个结构化、渐进式的强化学习后训练范式，把安全性内化进模型能力本身。原网页把它总结为四个阶段：

CoT-SFT：用思维链监督微调作为冷启动，让模型具备长链条推理能力。
M³-RL：多模态、多任务、多目标强化学习流程，分阶段对齐安全性、价值观、知识可靠性与通用能力。
Safe-and-Efficient RL：强调避免“过度思考”，把推理效率本身也视为安全的一部分。
Deliberative Search RL：让模型在回答时能够主动检索、交叉验证并过滤信息，提高事实可靠性。

除了训练方法本身，网页里还提到了一套可扩展 RL 基础设施 SafeWork-T1，支持千卡规模、多验证器联合训练，为大规模安全加固提供工程底座。

核心功能亮点

SafeWork-R1 不只是一个“更安全”的模型，也强调推理过程和人机交互的可信性。网页中突出的能力主要有三项：

审慎搜索：把校准机制与搜索能力结合起来，通过纯强化学习实现多轮自我反思和验证。
推理时对齐：在生成答案的过程中动态引入专业价值模型，逐步约束中间推理与最终输出。
思维链上的人工干预：允许用户或人工系统直接修改错误推理步骤，帮助模型更快贴近用户意图、表达风格和价值偏好。

这三点放在一起，说明 SafeWork-R1 关心的不只是“模型会不会违规”，还关心“模型能不能把正确、可靠、合规的推理过程真正走出来”。

讨论与未来展望

原网页最后总结了几个值得继续推进的判断：

安全性与能力不是零和博弈：只要训练设计合理，二者可以协同演化。
推理效率与安全性高度相关：过长、冗余、暴露过多中间过程的思维链，本身就可能带来安全风险。
可信交互仍是长期方向：未来还需要在错误纠正、测试时自适应、语言风格校准与社会规范对齐上继续深入。

SafeWork-R1 的意义不只是发布了一个强模型，而是给出了一条更完整的训练路径：安全不是推理后的补丁，而应该成为推理能力本身的一部分。