本文通过编程、Agent、长文整理、网页设计和人感等多组实测,验证了腾讯混元 Hy3 preview 模型虽非最强,但已具备在真实工作流中独立运行的能力,并重新获得了被认真测试的资格。
📝 详细摘要
文章作者对腾讯最新发布的 Hy3 preview 混合专家模型进行了深度实测。该模型总参数 295B,激活参数 21B,最大 256K 上下文,定位并非刷榜,而是为元宝、ima、WorkBuddy 等真实产品服务。作者在 WorkBuddy 平台上进行了五组测试:将长文档整理成可读的 PDF 书籍、将教程拆解为学习模块与测试题、生成可运行的 3D 网页小游戏、进行多源信息交叉核验的资料卡调研,以及测试模型的人感。测试结果显示,Hy3 preview 在长上下文处理、Agent 任务链路、工具调用和代码生成方面表现超出预期,能够稳定完成复杂任务,且价格极具竞争力(输入 1.2 元/百万 tokens,输出 4 元/百万 tokens)。作者认为,该模型是腾讯在预训练、强化学习、基础设施和研发流程上全面重建的成果,虽然在人感方面仍有提升空间,但已重新获得了被认真对待的资格。
💡 主要观点
- Hy3 preview 定位为服务真实产品的模型,而非刷榜模型。 模型参数克制(295B 总参,21B 激活),官方大方承认与顶尖模型存在差距,其核心目标是为元宝、ima、WorkBuddy 等腾讯系产品提供稳定可靠的底层能力。
💬 文章金句
- Hy3 preview 是一个完完全全重新整理过底层逻辑的模型,是一个想被塞进元宝,ima,CodeBuddy,WorkBuddy 这些真实产品里的模型。
- Hy3 preview 不是现阶段最强的,但它能独立放进一套真实工作流里了。
- 它不是一个完美答案。它更像一个重新开局。
- 我更愿意说,它重新获得了被认真测试的资格。
📊 文章信息
AI 初评:84
来源:卡尔的AI沃茨
作者:卡尔的AI沃茨
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3428
标签: 腾讯混元, Hy3 preview, 大模型评测, AI Agent, 模型实测