本文探讨了 Anthropic 未公开发布的 Claude Mythos 模型可能采用了字节跳动 Seed 团队提出的循环语言模型架构,并基于其异常优异的图搜索测试表现、推理速度与成本特征等线索进行了分析。
📝 详细摘要
文章围绕社区对 Claude Mythos 模型架构的猜测展开,核心论点是其可能采用了字节跳动 Seed 团队与高校合作提出的循环语言模型架构。作者通过分析 Anthropic 公布的测试数据,指出 Mythos 在广度优先图搜索任务上对 GPT-5.4 取得了近 4 倍的压倒性优势,这种在特定任务上的“异常尖峰”更可能源于架构创新而非通用的 Scaling Law。文章进一步引述字节论文,解释了循环模型在潜空间迭代、自适应计算步长以及提升“知识操作”而非“知识存储”能力方面的特点,并将 Mythos 在推理速度、成本及网络安全测试上的表现与循环模型的特性进行关联,提供了多条支持猜测的线索。最后,文章强调这仍是猜测,但测试数据本身已暗示了架构创新的方向。
💡 主要观点
- Mythos 在图搜索任务上的异常表现暗示其可能采用了创新的循环架构。 Mythos 在 GraphWalks BFS 测试中以 80% 对 21.4% 的分数远超 GPT-5.4,这种在特定任务上的巨大优势更符合架构创新带来的“归纳偏置”,而非均匀提升的 Scaling Law。
💬 文章金句
- 说明这种进步很可能不是来自通用的 Scaling Law,而是架构创新。
- 知识存储的容量是有限的…但知识操作不一样,把已知事实组合起来做多跳推理、执行程序、搜索图结构,这类能力随循环步数和训练 tokens 指数级增长。
- Scaling Law 改善一切,相对均匀,架构创新在匹配其归纳偏置的任务上创造异常尖峰值。
- 循环 Transformer 的归纳偏置就是迭代图算法。Mythos 的异常尖峰,恰好出现在图遍历任务上。
📊 文章信息
AI 初评:87
来源:量子位
作者:梦晨
分类:人工智能
语言:中文
阅读时间:7 分钟
字数:1627
标签: Claude Mythos, 循环语言模型, 字节跳动, 图搜索, 模型架构