测完腾讯混元新模型，发现很多人没看懂它的思路

📌 一句话摘要

本文通过一个真实的 HTML Slides Skill 构建案例，展示了腾讯混元 Hy3 preview 模型在 WorkBuddy 平台上的推理能力、反思能力和长任务保持能力，并探讨了 AI 下半场「模型与应用咬合」的核心逻辑。

📝 详细摘要

文章以腾讯新发布的 Hy3 preview 模型为切入点，回应了「未追上御三家」的质疑，指出该模型仅用三个月从底层重建，定位为中型性价比模型。作者引用姚顺雨《The Second Half》的观点，认为 AI 下半场的核心是「用模型解决真实问题」，而非单纯追求模型分数。作者在 WorkBuddy 平台中，使用 Hy3 preview 模型，基于泄露的 Claude Design 提示词，结合对张咋啦和归藏两个已有 Skill 的研究，构建了一个 HTML 版 Slides 工具。整个过程包括深度研究、需求理解、初版生成、多轮优化（语音输入、配色调整、内容结构优化），模型在 16 次工具调用中展现了推理、自我反思和目标保持能力。文章最后强调，对个人而言，下半场最重要的是「拿着 AI 去 Build」，创造贴合自己习惯的应用。

💡 主要观点

- AI 下半场的核心是「用模型解决真实问题」，而非单纯追求模型分数。 引用姚顺雨观点，大规模预训练+推理+RL 的范式已跑通，评测应重新定义 AI 要解决的真实问题，模型与应用需一体化咬合。

Hy3 preview 作为中型模型，在推理、反思和长任务保持能力上表现过关。 295B 总参/21B 激活的模型在构建复杂 Skill 时，能理解需求、自我反思失败、在长上下文中保持目标，展现了超出参数量的实用能力。

Agent 的进步不仅来自模型，更来自 Harness（脚手架）的优化。 WorkBuddy 的本地/云端双模式、腾讯云生态集成和稳健的 Harness 设计，是模型能力得以充分发挥的关键支撑。

对个人而言，AI 下半场意味着从「使用工具」转向「创造工具」。 通过构建贴合自己习惯的 Skill，用户可以将 AI 能力转化为个性化应用，实现从消费者到创造者的转变。

💬 文章金句

- 下半场真正最重要的事情是重新定义评测，定义 AI 到底要解决哪些真实的问题。

模型本身已经不是唯一的变量了，给它配什么样的脚手架，同样关键。
很多人以为 Agent 的进步来自模型，其实更大的进步，来自 Harness。
下半场，对个人来说最重要的事，可能就是拿着 AI 去 Build。

📊 文章信息

AI 初评：85

来源：AI产品阿颖

作者：阿颖

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2919

标签：腾讯混元, Hy3 preview, WorkBuddy, AI 编程, AI Agent

阅读完整文章

测完腾讯混元新模型，发现很多人没看懂它的思路

🤖 問 AI