本文介绍了通义千问团队最新开源的 Qwen3.6-35B-A3B 稀疏混合专家模型,重点解析了其 35B 总参数、3B 激活参数的架构特点,在智能体编程和多模态能力上的显著提升,并提供了详细的部署、推理与微调实战教程。
📝 详细摘要
文章详细介绍了通义千问(Qwen)团队最新发布的 Qwen3.6-35B-A3B 模型,这是 Qwen3.6 系列的首个开源权重版本。该模型采用稀疏混合专家(MoE)架构,总参数 35B,但每次推理仅激活约 3B 参数,在保持高性能的同时大幅降低了计算成本。核心升级在于智能体编程(Agentic Coding)能力的显著增强和新增的思维保留(Thinking Preservation)机制。文章通过大量基准评测数据展示了该模型在编程(如 SWE-bench、Terminal-Bench)、知识推理(MMLU-Pro、GPQA)以及多模态任务(MMMU、MathVista)上的优异表现,部分指标已与 Claude Sonnet 4.5 持平甚至超越。文章后半部分提供了极其详实的实战指南,包括使用 SGLang、vLLM、Transformers 等主流框架进行部署推理的具体命令和参数,以及使用 ms-swift 框架进行监督微调(SFT)和强化学习(RL)训练的完整脚本和配置示例,具有很高的实操参考价值。
💡 主要观点
- Qwen3.6-35B-A3B 采用 MoE 架构实现高参数效率,以 3B 激活参数逼近 27B 稠密模型性能。 模型总参数量为 350 亿,但通过 256 个专家中每次仅路由激活 8 个专家加 1 个共享专家的设计,将每次推理的激活参数压缩至约 30 亿,在 SWE-bench 等编程基准上成绩接近 Qwen3.5-27B,实现了性能与效率的平衡。
💬 文章金句
- Qwen3.6-35B-A3B——一个总参数 35B、激活参数仅 3B 的稀疏混合专家(MoE)模型。
- 在智能体编程能力上大幅超越前代 Qwen3.5-35B-A3B,并可与 Qwen3.5-27B、Gemma-31B 等稠密模型一较高下。
- 新增思维保留(Thinking Preservation)机制,允许在多轮对话中保留历史推理上下文,减少迭代开发中的重复开销。
- 在大多数视觉语言基准上表现已与 Claude Sonnet 4.5 持平,部分任务实现超越。
📊 文章信息
AI 初评:89
来源:魔搭ModelScope社区
作者:魔搭ModelScope社区
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2932
标签: Qwen3.6, MoE模型, 稀疏激活, 智能体编程, 多模态大模型