我的 harness 实操拆解：5 个 Agent 并行预测世界杯！

📌 一句话摘要

作者使用 Kimi Code 的 /swarm 功能搭建 5 个 Agent 并行预测世界杯的 harness，通过角色分工、多模态数据底座和复盘 Loop，以 58% 命中率跑赢抛硬币，并验证了多 Agent 系统的可迁移性。

📝 详细摘要

本文是作者利用 Kimi Code 命令行 Agent 构建多 Agent 预测系统的实操记录。核心设计包括：以 ESPN 赛程截图作为数据源（利用 K2.7 的多模态识别能力直接读取比分和赛程），定义 5 个独立角色（数据派、战术派、风险官等）通过 /swarm 并行分析，避免观点趋同；加入错题本和定时任务形成每日循环，使 Agent 能根据历史失误调整判断。文章提供了与 Opta 超级计算机、抛硬币的对比命中率（12 场中 7 场，58%），并展示了翻车后 Agent 自我修正的案例。作者强调当前 AI 工具的价值在于外围 harness 的能力，而非单纯聊天，该框架可迁移至股票预测等其他场景。

💡 主要观点

- 以多角色 Agent 并行分析替代单一 AI 判断，通过角色冲突提升结论可靠性。 作者设计 5 个性格各异的 Agent（数据派、战术派、风险官等），让它们独立分析、互不看结论，最终汇总时观点一致则可信，观点冲突则提示比赛不确定性强。

利用多模态大模型直接读取截图，省去 OCR 解析步骤。 Kimi K2.7 原生支持图片结构理解，可直接从 ESPN 赛程截图中读取比分、对阵、场馆、观众数等信息，并与联网数据对账，简化了数据底座搭建。

通过错题本和定时任务构建复盘 Loop，使 Agent 实现自我进化。 每次预测后记录失误原因（如过分低估弱队防守韧性），并将教训喂给后续预测，形成“预测→反思→修正”的闭环，命中率逐步提升。

该 harness 框架具有跨场景迁移能力。 作者指出只需将球队换为股票、赛程换为财报，骨架和方法完全可复用，体现 AI Agent harness 的核心价值在于调度、拆分和记忆能力，而非特定领域。

💬 文章金句

- 我想要的不是'一个聪明 AI 的综合判断'，而是五个有偏见的专家吵出来的判断。

预测不再是单向输出，而是能回流、能纠偏。
现在 AI 工具值不值得用，比的早就不是聊天了，是它外面那层 harness。

📊 文章信息

AI 初评：89

来源：Datawhale

作者：Datawhale

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2800

标签： AI Agent, AI 编程, 提示工程, AI 工作流, 模型评测与基准

阅读完整文章

我的 harness 实操拆解：5 个 Agent 并行预测世界杯！

🤖 問 AI