Qwen3.6 开源第一发：把能力压进更小的激活参数里

📌 一句话摘要

本文介绍了通义千问团队最新开源的 Qwen3.6-35B-A3B 稀疏混合专家模型，重点解析了其 35B 总参数、3B 激活参数的架构特点，在智能体编程和多模态能力上的显著提升，并提供了详细的部署、推理与微调实战教程。

📝 详细摘要

文章详细介绍了通义千问（Qwen）团队最新发布的 Qwen3.6-35B-A3B 模型，这是 Qwen3.6 系列的首个开源权重版本。该模型采用稀疏混合专家（MoE）架构，总参数 35B，但每次推理仅激活约 3B 参数，在保持高性能的同时大幅降低了计算成本。核心升级在于智能体编程（Agentic Coding）能力的显著增强和新增的思维保留（Thinking Preservation）机制。文章通过大量基准评测数据展示了该模型在编程（如 SWE-bench、Terminal-Bench）、知识推理（MMLU-Pro、GPQA）以及多模态任务（MMMU、MathVista）上的优异表现，部分指标已与 Claude Sonnet 4.5 持平甚至超越。文章后半部分提供了极其详实的实战指南，包括使用 SGLang、vLLM、Transformers 等主流框架进行部署推理的具体命令和参数，以及使用 ms-swift 框架进行监督微调（SFT）和强化学习（RL）训练的完整脚本和配置示例，具有很高的实操参考价值。

💡 主要观点

- Qwen3.6-35B-A3B 采用 MoE 架构实现高参数效率，以 3B 激活参数逼近 27B 稠密模型性能。 模型总参数量为 350 亿，但通过 256 个专家中每次仅路由激活 8 个专家加 1 个共享专家的设计，将每次推理的激活参数压缩至约 30 亿，在 SWE-bench 等编程基准上成绩接近 Qwen3.5-27B，实现了性能与效率的平衡。

模型核心升级聚焦于智能体编程与多轮对话的思维保留，提升开发效率。 针对社区反馈，模型在前端工作流、仓库级代码生成等智能体任务上表现更精准流畅，并新增机制允许在多轮对话中保留历史推理上下文，减少重复计算，特别适合迭代式开发场景。

在多模态能力上实现重大突破，多项视觉语言基准得分超越 Claude Sonnet 4.5。 在 MMMU、MathVista、RealWorldQA 等综合视觉理解任务，以及 RefCOCO、VideoMMU 等空间智能和视频理解任务上，该模型表现突出，标志着国产开源模型在多模态领域已达到国际领先水平。

文章提供了从部署推理到高级训练的全链路、可落地的实战教程。 内容远超简单的模型介绍，详细给出了基于 SGLang、vLLM、Transformers 的部署命令、采样参数，以及使用 ms-swift 进行 SFT 和 GRPO 强化学习的完整环境配置、训练脚本和数据格式，对开发者有极强的指导意义。

💬 文章金句

- Qwen3.6-35B-A3B——一个总参数 35B、激活参数仅 3B 的稀疏混合专家（MoE）模型。

在智能体编程能力上大幅超越前代 Qwen3.5-35B-A3B，并可与 Qwen3.5-27B、Gemma-31B 等稠密模型一较高下。
新增思维保留（Thinking Preservation）机制，允许在多轮对话中保留历史推理上下文，减少迭代开发中的重复开销。
在大多数视觉语言基准上表现已与 Claude Sonnet 4.5 持平，部分任务实现超越。

📊 文章信息

AI 初评：89

来源：魔搭ModelScope社区

作者：魔搭ModelScope社区

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2932

标签： Qwen3.6, MoE模型, 稀疏激活, 智能体编程, 多模态大模型

阅读完整文章

Qwen3.6 开源第一发：把能力压进更小的激活参数里

🤖 問 AI