赛博斗蛐蛐：9 大模型决战三国志，天命在谁？

📌 一句话摘要

本文通过一场由 9 个旗舰大模型参与的「三国志」策略游戏对战，深度评测了各模型在复杂环境下的战略推理、外交博弈及资源管理能力，并分享了 AI 原生游戏的开发实践。

📝 详细摘要

作者利用 Vibe Coding（AI 辅助编程）构建了一个简化版的三国志策略游戏引擎，旨在通过 PVP 竞技而非传统 PVE 榜单来评测 LLM 的真实能力。文章详细记录了包括 Claude 4.6、GPT-5.4、Gemini 3.1 Pro 及国产模型 Kimi、Qwen 在内的 9 个模型的分组对抗过程。决赛中，Gemini 3.1 Pro 在面对 Claude 与 Kimi 的长期外交同盟及 1v2 的极端劣势下，凭借「坚壁清野」这一极具战略深度的撤退反击战术，最终实现逆风翻盘夺冠。此外，作者还分享了项目的三层解耦架构设计，以及如何通过 Prompt 工程克服 LLM 的历史刻板印象和道德约束等技术细节，为 AI 原生游戏的探索提供了宝贵经验。

💡 主要观点

- PVP 竞技对抗成为 LLM 评测的新维度。 相比传统静态榜单，游戏环境能更全面地考察 LLM 在复杂规则下的推理、长上下文注意力及动态博弈能力。

Gemini 3.1 Pro 展现出超越预期的战略理解力。 其使用的「坚壁清野」战术（空城撤退保存资源）并非预设，而是模型基于规则计算或语义关联自主涌现的最优策略。

Vibe Coding 显著提升了复杂系统的开发效率。 借助 Claude Code 和 Cursor 等工具，作者快速完成了包含 600 多个测试用例、三层解耦架构的完整游戏引擎。

提示词工程需解决模型的「历史偏见」与「道德约束」。 通过 System Prompt 引导模型脱离历史剧本（如蜀吴必联手）及不愿发动战争的道德限制，使其回归纯粹的策略竞争。

💬 文章金句

- 从传统榜单的 PVE 刷分模式转变成 PVP 竞技对抗模式

在城市快要失守的时候，让所有将领带着金钱和粮食撤离，留给对方一个空城。
Gemini 3.1 Pro 无愧于冠军称号... 以一敌二而胜，当属本届最强。
魏虽只余一城，然壮士慷慨，战至最后一人... 以血还血，虽败犹荣！

📊 文章信息

AI 评分：92

来源：腾讯云开发者

作者：腾讯云开发者

分类：人工智能

语言：中文

阅读时间：46 分钟

字数：11447

标签： LLM 评测, AI 原生游戏, Gemini 3.1 Pro, Claude 4.6, Vibe Coding

阅读完整文章

赛博斗蛐蛐：9 大模型决战三国志，天命在谁？

🤖 問 AI