实测 Hy3 preview 后我发现小看腾讯做大模型决心了

📌 一句话摘要

本文通过编程、Agent、长文整理、网页设计和人感等多组实测，验证了腾讯混元 Hy3 preview 模型虽非最强，但已具备在真实工作流中独立运行的能力，并重新获得了被认真测试的资格。

📝 详细摘要

文章作者对腾讯最新发布的 Hy3 preview 混合专家模型进行了深度实测。该模型总参数 295B，激活参数 21B，最大 256K 上下文，定位并非刷榜，而是为元宝、ima、WorkBuddy 等真实产品服务。作者在 WorkBuddy 平台上进行了五组测试：将长文档整理成可读的 PDF 书籍、将教程拆解为学习模块与测试题、生成可运行的 3D 网页小游戏、进行多源信息交叉核验的资料卡调研，以及测试模型的人感。测试结果显示，Hy3 preview 在长上下文处理、Agent 任务链路、工具调用和代码生成方面表现超出预期，能够稳定完成复杂任务，且价格极具竞争力（输入 1.2 元/百万 tokens，输出 4 元/百万 tokens）。作者认为，该模型是腾讯在预训练、强化学习、基础设施和研发流程上全面重建的成果，虽然在人感方面仍有提升空间，但已重新获得了被认真对待的资格。

💡 主要观点

- Hy3 preview 定位为服务真实产品的模型，而非刷榜模型。 模型参数克制（295B 总参，21B 激活），官方大方承认与顶尖模型存在差距，其核心目标是为元宝、ima、WorkBuddy 等腾讯系产品提供稳定可靠的底层能力。

在编程、Agent 和长上下文任务中表现超出预期。 实测中，Hy3 preview 能独立完成将长文档整理为可读 PDF、生成可运行的 3D 网页游戏、进行多源信息交叉核验等复杂任务，表明其在真实工作流中具备实用价值。

模型是腾讯在底层技术上的全面重建，而非简单迭代。 作者指出，Hy3 preview 背后是预训练、强化学习、基础设施和研发流程的重新梳理，结合姚顺雨在语言 Agent 领域的长期积累，使其在 Coding 和 Agent 能力上有扎实基础。

💬 文章金句

- Hy3 preview 是一个完完全全重新整理过底层逻辑的模型，是一个想被塞进元宝，ima，CodeBuddy，WorkBuddy 这些真实产品里的模型。

Hy3 preview 不是现阶段最强的，但它能独立放进一套真实工作流里了。
它不是一个完美答案。它更像一个重新开局。
我更愿意说，它重新获得了被认真测试的资格。

📊 文章信息

AI 初评：84

来源：卡尔的AI沃茨

作者：卡尔的AI沃茨

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3428

标签：腾讯混元, Hy3 preview, 大模型评测, AI Agent, 模型实测

阅读完整文章

实测 Hy3 preview 后我发现小看腾讯做大模型决心了

🤖 問 AI