本文报道了 AMD AI 主管对 Claude Code 性能退化的深度量化分析及 Anthropic 官方的回应争议,揭示了 AI 编程工具在思考深度与算力成本平衡中的挑战。
📝 详细摘要
文章详细记录了 AMD AI 团队主管 Stella Laurenzo 针对 Claude Code 发布的一份详尽分析报告。该报告基于数月会话日志的量化分析指出,自 2026 年 2 月更新后,Claude 的思考深度下降了 67%,导致其在复杂工程任务中表现低劣,行为模式从“深度调研”转变为“盲目编辑”。尽管 Anthropic 负责人 Boris Cherny 解释称这是由于默认思考强度调整和自适应思考机制所致,并建议用户通过参数手动调优,但开发者社区普遍反映即便调高参数也难以恢复此前的水平。这场争议引发了关于 AI 编程工具可靠性、思考 token 分配透明度以及付费分级的广泛讨论。
💡 主要观点
- 量化分析显示 Claude Code 思考深度大幅缩减。 AMD AI 主管通过对近 7000 份会话日志分析发现,思考深度下降 67% 与模型在复杂任务中的质量崩溃呈现精准关联。
💬 文章金句
- 扩展思考 token 并非「锦上添花」的功能,而是模型完成多步骤研究、遵循规范、审慎修改代码所必需的结构性要素。
- 模型从每次编辑对应 6.6 次查阅降至 2.0 次,修改前的调研行为减少了 70%。
- 减少思考次数看似能节省每次请求的算力。但一旦思考不足导致输出质量下降时……整体算力消耗增加了几个数量级。
- Claude 已经退化到无法信任其执行任何工程任务的地步了……沦为又一个人工智能「玩具」了。
📊 文章信息
AI 评分:86
来源:AI前线
作者:AI前线
分类:人工智能
语言:中文
阅读时间:21 分钟
字数:5121
标签: Claude Code, Anthropic, AI 编程, LLM 推理, 思考深度