<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Multimodal LLM | 汪旭鸿的个人主页</title><link>https://wangxuhongcn.github.io/tags/multimodal-llm/</link><atom:link href="https://wangxuhongcn.github.io/tags/multimodal-llm/index.xml" rel="self" type="application/rss+xml"/><description>Multimodal LLM</description><generator>Hugo Blox Builder (https://hugoblox.com)</generator><language>zh-Hans</language><lastBuildDate>Sat, 12 Jul 2025 00:00:00 +0000</lastBuildDate><image><url>https://wangxuhongcn.github.io/media/icon_hu_982c5d63a71b2961.png</url><title>Multimodal LLM</title><link>https://wangxuhongcn.github.io/tags/multimodal-llm/</link></image><item><title>SafeWork-R1：AI-45°平衡律引领下的智能与安全协同进化</title><link>https://wangxuhongcn.github.io/post/safework-r1/</link><pubDate>Sat, 12 Jul 2025 00:00:00 +0000</pubDate><guid>https://wangxuhongcn.github.io/post/safework-r1/</guid><description>
&lt;details class="print:hidden xl:hidden" open>
&lt;summary>目录&lt;/summary>
&lt;div class="text-sm">
&lt;nav id="TableOfContents">
&lt;ul>
&lt;li>&lt;a href="#摘要">摘要&lt;/a>&lt;/li>
&lt;li>&lt;a href="#为什么要重新讨论安全与能力的关系">为什么要重新讨论安全与能力的关系&lt;/a>&lt;/li>
&lt;li>&lt;a href="#safework-r1-的安全性与通用能力">SafeWork-R1 的安全性与通用能力&lt;/a>&lt;/li>
&lt;li>&lt;a href="#safeladder-的技术路线图">SafeLadder 的技术路线图&lt;/a>&lt;/li>
&lt;li>&lt;a href="#核心功能亮点">核心功能亮点&lt;/a>&lt;/li>
&lt;li>&lt;a href="#讨论与未来展望">讨论与未来展望&lt;/a>&lt;/li>
&lt;li>&lt;a href="#相关链接">相关链接&lt;/a>&lt;/li>
&lt;/ul>
&lt;/nav>
&lt;/div>
&lt;/details>
&lt;p>
&lt;/p>
&lt;h2 id="摘要">摘要&lt;/h2>
&lt;p>SafeWork-R1 讨论的不是“安全会不会拖累能力”，而是如何让安全性、推理能力与交互质量一起提升。围绕这个目标，团队提出了通用安全加固框架 &lt;code>SafeLadder&lt;/code>，并在其上训练出多模态推理模型 &lt;code>SafeWork-R1&lt;/code>。&lt;/p>
&lt;p>从结果上看，这不是一个只会“保守拒答”的安全模型。相反，SafeWork-R1 一方面在安全 benchmark 上相对基础模型 &lt;code>Qwen2.5-VL-72B&lt;/code> 提升了 &lt;code>46.54%&lt;/code>，另一方面在七个通用推理与多模态 benchmark 上平均提升 &lt;code>13.45%&lt;/code>，说明它追求的是“安全与能力协同演化”，而不是单纯拿能力换安全。&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="AI-45° 平衡律与整体能力提升"
srcset="https://wangxuhongcn.github.io/post/safework-r1/featured_hu_6189b71377bc8edd.webp 320w, https://wangxuhongcn.github.io/post/safework-r1/featured_hu_b928d5368833a6c9.webp 480w, https://wangxuhongcn.github.io/post/safework-r1/featured_hu_de726724e02fd12e.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/safework-r1/featured_hu_6189b71377bc8edd.webp"
width="760"
height="313"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;h2 id="为什么要重新讨论安全与能力的关系">为什么要重新讨论安全与能力的关系&lt;/h2>
&lt;p>近年来大语言模型尤其是推理模型发展极快，但能力与安全之间的差距也在同步拉大。模型越来越能算、越来越会答，不代表它天然更符合伦理、规范与真实世界应用的安全约束。&lt;/p>
&lt;p>SafeWork-R1 背后的一个核心观点是所谓的 &lt;code>AI-45° 平衡律&lt;/code>：真正值得追求的模型，不应只沿着“能力”单轴上升，而应该沿着“能力与安全同步提升”的方向推进。&lt;/p>
&lt;p>原网页中给出的结论很明确：如果底座模型足够强，并且训练设计得当，那么安全性与通用能力并不是零和关系。&lt;/p>
&lt;h2 id="safework-r1-的安全性与通用能力">SafeWork-R1 的安全性与通用能力&lt;/h2>
&lt;p>SafeWork-R1 依托 SafeLadder 框架构建，目标是把安全机制深度融入多模态模型的原生能力体系，而不是在推理末端附加一层简单的后处理过滤。&lt;/p>
&lt;p>关键结果包括：&lt;/p>
&lt;ul>
&lt;li>相比 &lt;code>Qwen2.5-VL-72B&lt;/code>，在安全类基准测试上平均提升 &lt;code>46.54%&lt;/code>&lt;/li>
&lt;li>在 &lt;code>MMMU&lt;/code>、&lt;code>MathVista&lt;/code>、&lt;code>GPQA&lt;/code>、&lt;code>Olympiad&lt;/code>、&lt;code>Gaokao-MM&lt;/code>、&lt;code>IFEVAL&lt;/code>、&lt;code>MM-IFEval&lt;/code> 七个通用基准上平均提升 &lt;code>13.45%&lt;/code>&lt;/li>
&lt;li>其中 &lt;code>MMMU&lt;/code> 为 &lt;code>70.94&lt;/code>，&lt;code>MathVista&lt;/code> 为 &lt;code>76.1&lt;/code>，&lt;code>Gaokao-MM&lt;/code> 为 &lt;code>78.17&lt;/code>&lt;/li>
&lt;li>SafeLadder 还被进一步迁移到 &lt;code>SafeWork-R1-InternVL-78B&lt;/code>、&lt;code>SafeWork-R1-DeepSeek-70B&lt;/code>、&lt;code>SafeWork-R1-QwenVL-7B&lt;/code> 等不同模型上，验证了框架的适应性&lt;/li>
&lt;/ul>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="SafeWork-R1 的安全思维案例"
srcset="https://wangxuhongcn.github.io/post/safework-r1/safety-deliberation_hu_48d5b1244253a7f2.webp 320w, https://wangxuhongcn.github.io/post/safework-r1/safety-deliberation_hu_64ac7d475ca59850.webp 480w, https://wangxuhongcn.github.io/post/safework-r1/safety-deliberation_hu_f2d59e7a3966bda5.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/safework-r1/safety-deliberation_hu_48d5b1244253a7f2.webp"
width="760"
height="307"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="基于表征分析的安全互信息现象"
srcset="https://wangxuhongcn.github.io/post/safework-r1/representation-analysis_hu_e61b52c47fdb8d7e.webp 320w, https://wangxuhongcn.github.io/post/safework-r1/representation-analysis_hu_985319f5589cde51.webp 480w, https://wangxuhongcn.github.io/post/safework-r1/representation-analysis_hu_260cef9ab33b2896.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/safework-r1/representation-analysis_hu_e61b52c47fdb8d7e.webp"
width="760"
height="206"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="安全与通用能力 benchmark 结果"
srcset="https://wangxuhongcn.github.io/post/safework-r1/benchmark-results_hu_272c4801f0367c5c.webp 320w, https://wangxuhongcn.github.io/post/safework-r1/benchmark-results_hu_259c4a607ade9c36.webp 480w, https://wangxuhongcn.github.io/post/safework-r1/benchmark-results_hu_b9d7bb885611c018.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/safework-r1/benchmark-results_hu_272c4801f0367c5c.webp"
width="760"
height="430"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;p>从这些结果看，SafeWork-R1 不是只在安全 benchmark 上有优势，也不是牺牲开放任务能力来换安全分数，而是把两者同时拉高。&lt;/p>
&lt;h2 id="safeladder-的技术路线图">SafeLadder 的技术路线图&lt;/h2>
&lt;p>SafeLadder 采用的是一个结构化、渐进式的强化学习后训练范式，把安全性内化进模型能力本身。原网页把它总结为四个阶段：&lt;/p>
&lt;ol>
&lt;li>&lt;code>CoT-SFT&lt;/code>：用思维链监督微调作为冷启动，让模型具备长链条推理能力。&lt;/li>
&lt;li>&lt;code>M³-RL&lt;/code>：多模态、多任务、多目标强化学习流程，分阶段对齐安全性、价值观、知识可靠性与通用能力。&lt;/li>
&lt;li>&lt;code>Safe-and-Efficient RL&lt;/code>：强调避免“过度思考”，把推理效率本身也视为安全的一部分。&lt;/li>
&lt;li>&lt;code>Deliberative Search RL&lt;/code>：让模型在回答时能够主动检索、交叉验证并过滤信息，提高事实可靠性。&lt;/li>
&lt;/ol>
&lt;p>
&lt;figure >
&lt;div class="flex justify-center ">
&lt;div class="w-full" >
&lt;img alt="SafeLadder 的训练路线图"
srcset="https://wangxuhongcn.github.io/post/safework-r1/training-roadmap_hu_b9f61564086d8eba.webp 320w, https://wangxuhongcn.github.io/post/safework-r1/training-roadmap_hu_d572f0f053a95ec6.webp 480w, https://wangxuhongcn.github.io/post/safework-r1/training-roadmap_hu_9b00b1a36a27f2.webp 760w"
sizes="(max-width: 480px) 100vw, (max-width: 768px) 90vw, (max-width: 1024px) 80vw, 760px"
src="https://wangxuhongcn.github.io/post/safework-r1/training-roadmap_hu_b9f61564086d8eba.webp"
width="760"
height="172"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;p>除了训练方法本身，网页里还提到了一套可扩展 RL 基础设施 &lt;code>SafeWork-T1&lt;/code>，支持千卡规模、多验证器联合训练，为大规模安全加固提供工程底座。&lt;/p>
&lt;h2 id="核心功能亮点">核心功能亮点&lt;/h2>
&lt;p>SafeWork-R1 不只是一个“更安全”的模型，也强调推理过程和人机交互的可信性。网页中突出的能力主要有三项：&lt;/p>
&lt;ul>
&lt;li>&lt;code>审慎搜索&lt;/code>：把校准机制与搜索能力结合起来，通过纯强化学习实现多轮自我反思和验证。&lt;/li>
&lt;li>&lt;code>推理时对齐&lt;/code>：在生成答案的过程中动态引入专业价值模型，逐步约束中间推理与最终输出。&lt;/li>
&lt;li>&lt;code>思维链上的人工干预&lt;/code>：允许用户或人工系统直接修改错误推理步骤，帮助模型更快贴近用户意图、表达风格和价值偏好。&lt;/li>
&lt;/ul>
&lt;p>这三点放在一起，说明 SafeWork-R1 关心的不只是“模型会不会违规”，还关心“模型能不能把正确、可靠、合规的推理过程真正走出来”。&lt;/p>
&lt;h2 id="讨论与未来展望">讨论与未来展望&lt;/h2>
&lt;p>原网页最后总结了几个值得继续推进的判断：&lt;/p>
&lt;ul>
&lt;li>&lt;code>安全性与能力不是零和博弈&lt;/code>：只要训练设计合理，二者可以协同演化。&lt;/li>
&lt;li>&lt;code>推理效率与安全性高度相关&lt;/code>：过长、冗余、暴露过多中间过程的思维链，本身就可能带来安全风险。&lt;/li>
&lt;li>&lt;code>可信交互仍是长期方向&lt;/code>：未来还需要在错误纠正、测试时自适应、语言风格校准与社会规范对齐上继续深入。&lt;/li>
&lt;/ul>
&lt;p>SafeWork-R1 的意义不只是发布了一个强模型，而是给出了一条更完整的训练路径：安全不是推理后的补丁，而应该成为推理能力本身的一部分。&lt;/p>
&lt;h2 id="相关链接">相关链接&lt;/h2>
&lt;ul>
&lt;li>Paper:
&lt;/li>
&lt;/ul></description></item></channel></rss>