← 回總覽

实测 Hy3 preview 后我发现小看腾讯做大模型决心了

📅 2026-04-28 19:11 卡尔的AI沃茨 人工智能 2 分鐘 1439 字 評分: 84
腾讯混元 Hy3 preview 大模型评测 AI Agent 模型实测
📌 一句话摘要 本文通过编程、Agent、长文整理、网页设计和人感等多组实测,验证了腾讯混元 Hy3 preview 模型虽非最强,但已具备在真实工作流中独立运行的能力,并重新获得了被认真测试的资格。 📝 详细摘要 文章作者对腾讯最新发布的 Hy3 preview 混合专家模型进行了深度实测。该模型总参数 295B,激活参数 21B,最大 256K 上下文,定位并非刷榜,而是为元宝、ima、WorkBuddy 等真实产品服务。作者在 WorkBuddy 平台上进行了五组测试:将长文档整理成可读的 PDF 书籍、将教程拆解为学习模块与测试题、生成可运行的 3D 网页小游戏、进行多源信息交叉核

📌 一句话摘要

本文通过编程、Agent、长文整理、网页设计和人感等多组实测,验证了腾讯混元 Hy3 preview 模型虽非最强,但已具备在真实工作流中独立运行的能力,并重新获得了被认真测试的资格。

📝 详细摘要

文章作者对腾讯最新发布的 Hy3 preview 混合专家模型进行了深度实测。该模型总参数 295B,激活参数 21B,最大 256K 上下文,定位并非刷榜,而是为元宝、ima、WorkBuddy 等真实产品服务。作者在 WorkBuddy 平台上进行了五组测试:将长文档整理成可读的 PDF 书籍、将教程拆解为学习模块与测试题、生成可运行的 3D 网页小游戏、进行多源信息交叉核验的资料卡调研,以及测试模型的人感。测试结果显示,Hy3 preview 在长上下文处理、Agent 任务链路、工具调用和代码生成方面表现超出预期,能够稳定完成复杂任务,且价格极具竞争力(输入 1.2 元/百万 tokens,输出 4 元/百万 tokens)。作者认为,该模型是腾讯在预训练、强化学习、基础设施和研发流程上全面重建的成果,虽然在人感方面仍有提升空间,但已重新获得了被认真对待的资格。

💡 主要观点

- Hy3 preview 定位为服务真实产品的模型,而非刷榜模型。 模型参数克制(295B 总参,21B 激活),官方大方承认与顶尖模型存在差距,其核心目标是为元宝、ima、WorkBuddy 等腾讯系产品提供稳定可靠的底层能力。

在编程、Agent 和长上下文任务中表现超出预期。 实测中,Hy3 preview 能独立完成将长文档整理为可读 PDF、生成可运行的 3D 网页游戏、进行多源信息交叉核验等复杂任务,表明其在真实工作流中具备实用价值。
模型是腾讯在底层技术上的全面重建,而非简单迭代。 作者指出,Hy3 preview 背后是预训练、强化学习、基础设施和研发流程的重新梳理,结合姚顺雨在语言 Agent 领域的长期积累,使其在 Coding 和 Agent 能力上有扎实基础。

💬 文章金句

- Hy3 preview 是一个完完全全重新整理过底层逻辑的模型,是一个想被塞进元宝,ima,CodeBuddy,WorkBuddy 这些真实产品里的模型。

  • Hy3 preview 不是现阶段最强的,但它能独立放进一套真实工作流里了。
  • 它不是一个完美答案。它更像一个重新开局。
  • 我更愿意说,它重新获得了被认真测试的资格。

📊 文章信息

AI 初评:84

来源:卡尔的AI沃茨

作者:卡尔的AI沃茨

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3428

标签: 腾讯混元, Hy3 preview, 大模型评测, AI Agent, 模型实测

阅读完整文章

查看原文 → 發佈: 2026-04-28 19:11:00 收錄: 2026-04-29 00:00:17

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。