横评 DeepSeek、Claude、GPT、Kimi，结果大跌眼镜…

📌 一句话摘要

本文通过 7 个前端开发任务实测，对比了 Claude Opus 4.6、GPT-5.4、DeepSeek V4 Pro 和 Kimi K2.6 的编码能力，结论是 Kimi K2.6 在综合表现和性价比上最优，DeepSeek V4 Pro 成本最低但缺乏多模态能力。

📝 详细摘要

作者花费 400 元，对 Claude Opus 4.6、GPT-5.4、DeepSeek V4 Pro 和 Kimi K2.6 四款热门大模型进行了 7 个前端开发任务的横向实测，涵盖信息图、旅游网站、3D 场景、作品集网站、PPT 生成、Agent 长程任务等场景。测试结果显示，Kimi K2.6 在多数任务中表现最佳，尤其在视觉设计、多模态理解和 Agent 能力上突出，且成本仅为 Claude 和 GPT 的几十分之一。DeepSeek V4 Pro 在降价后成本最低，但缺乏多模态能力限制了其应用场景。Claude Opus 4.6 表现稳定但性价比不高，GPT-5.4 在部分任务中表现拉胯且成本最高。文章最后给出了基于不同需求的选型建议。

💡 主要观点

- Kimi K2.6 在综合表现和性价比上最优，能力比肩顶尖闭源模型。 在信息图、旅游网站、3D 场景、作品集网站等多项任务中，Kimi K2.6 的视觉设计、多模态理解和 Agent 能力均表现出色，而成本仅为 Claude 和 GPT 的几十分之一。

DeepSeek V4 Pro 成本最低，但缺乏多模态能力限制了其应用场景。 降价后的 DeepSeek V4 Pro 在纯文本任务中表现不错，成本仅 2.4 元，但在需要图片理解和生成的场景中无法使用，适合对多模态无要求的用户。

Claude Opus 4.6 和 GPT-5.4 在本次测试中未表现出代差优势，性价比低。 Claude 表现稳定但价格是 Kimi 的近 30 倍，GPT-5.4 在部分任务中表现不佳且成本最高，两者均未展现出与开源模型有显著差距的能力。

💬 文章金句

- Kimi K2.6 生成的网页实在是太棒了，在 logo、文字配色、交互动画这些 UI 细节上的表现非常强，说明是真的读懂了图像。

Claude 生成的效果与 Kimi 差不多，但价格竟然差了近 30 倍！
GPT-5.4 的表现不及格，一直卡在雪山页面根本动不了。
降价后的 DeepSeek，算是物美价廉。
如果要论性价比，Kimi K2.6 则是最合适的，能力比肩甚至超越全球顶尖模型，而成本却不到他们的几十分之一。

📊 文章信息

AI 初评：82

来源：沃垠AI

作者： (沃垠AI)

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2893

标签：大模型评测, AI 编程, Kimi K2.6, DeepSeek V4, Claude Opus 4.6

阅读完整文章

横评 DeepSeek、Claude、GPT、Kimi，结果大跌眼镜…

🤖 問 AI