本文通过四项实测,评估了腾讯新发布的 Hy3 preview 模型在代码生成、信息核实、上下文理解和 Agent 能力上的表现,认为其补齐了腾讯在基座模型上的短板,让 AI 产品有底气使用自家基座。
📝 详细摘要
文章围绕腾讯 4 月 23 日发布的 Hy3 preview 模型展开实测,该模型为 295B 总参数、21B 激活参数的 MoE 架构,定位解决真实世界复杂工程问题。作者设计了四项测试:个人展示页代码生成(展现审美与动效)、鱼油争议信息核实(展现多信源交叉验证与信度评分)、虚构工业手册上下文理解(展现规则遵循能力)、世界杯赛程网页 Agent 任务(展现工具调用与环境适应能力)。测试结果表明 Hy3 preview 在日常使用水准上不输主流模型,但存在思维链表演感、信度评分伪精确、工具调用效率不极致等问题。文章核心观点是 Hy3 preview 的意义不在于成为最强模型,而在于为腾讯的 AI 产品补齐基座短板,使其不再依赖第三方模型。
💡 主要观点
- Hy3 preview 是腾讯混元团队重组后,由姚顺雨主导的首个重要模型发布。 该模型采用 295B 总参数、21B 激活参数的 MoE 架构,定位解决真实世界复杂工程问题,标志着腾讯在基座模型能力上的关键补强。
💬 文章金句
- Hy3 preview 并不是当前最强的模型,但此前腾讯真正的问题是没有一个够用的基座,能撑起自己的产品线,同时在模型能力上回到牌桌上。
- Hy3 preview 在此刻的'任务'也许就在这里:不是要做最强的模型,而是让腾讯的 AI 产品终于有底气只用自家的基座。
- 产品层能弥补的差距是有限的。腾讯在 AI 这场仗里,产品腿和模型腿的长度一直不一样。
📊 文章信息
AI 初评:82
来源:硅星人Pro
作者:硅星人Pro
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2942
标签: 腾讯, Hy3 preview, 混元大模型, 姚顺雨, 模型评测