谷歌全家桶，都被新模型“污染”了

📌 一句话摘要

谷歌 Gemini 3.5 Flash 模型因 token 消耗爆炸、输出啰嗦、综合推理能力垫底而饱受批评，其糟糕体验通过嵌入所有产品入口污染了整个谷歌生态，但谷歌的 TPU 硬件业务却表现亮眼。

📝 详细摘要

本文深入分析了谷歌 Gemini 3.5 Flash 模型发布一周后遭遇的广泛批评。文章指出，该模型虽然速度快，但存在 token 消耗过高（完成任务成本是前代 3 Flash 的 5.5 倍）、输出啰嗦、综合推理能力弱（在 Humanity's Last Exam 等榜单上落后于竞品）等核心问题。更严重的是，谷歌将 Gemini 3.5 Flash 嵌入到 AI Overview、AI Mode 等几乎所有产品中，导致其糟糕体验污染了整个生态，例如搜索特定单词会触发 AI Overview 的误判故障。文章认为，Flash 模型更适合作为 Agent 架构中的子任务执行器，而非旗舰模型，真正的希望寄托于尚未发布的 Gemini 3.5 Pro。与此同时，文章指出谷歌在硬件领域表现强劲，其 TPU 芯片（TPU 8t 和 TPU 8i）业务因 Cloud 业务的 63% 增长而成为公司最硬的叙事，甚至吸引了 Anthropic 等外部大客户。文章最终以「橘生淮南则为橘，生于淮北则为枳」的比喻，讽刺谷歌拥有顶级硬件却未能产出匹配的顶级模型。

💡 主要观点

- Gemini 3.5 Flash 模型实际使用成本高昂，远超官方宣传。 虽然单位 token 价格便宜，但由于模型在完成任务时需要更多轮次（turn count）和更啰嗦的输出，导致总 token 消耗量巨大，完成任务成本是前代模型的 5.5 倍，甚至高于 GPT-5.5 medium。

Gemini 3.5 Flash 被嵌入谷歌全产品生态，其糟糕体验污染了搜索等核心产品。 谷歌将 Flash 模型作为连接层嵌入 AI Overview、AI Mode 等产品，导致搜索特定单词（如 disregard、ignore）时出现误判故障，严重影响了用户体验和谷歌的品牌形象。

Gemini 3.5 Flash 在 Agent 和工具调用方面表现尚可，但综合推理能力不足。 该模型在 Terminal-Bench 等工具调用榜单上成绩不错，但在 Humanity's Last Exam、ARC-AGI-2 等综合推理榜单上表现垫底，显得「智力不够」，无法胜任复杂推理和长链分析任务。

谷歌的 TPU 硬件业务表现强劲，成为公司当前最硬的叙事。 谷歌 Cloud 业务增长 63%，主要得益于 TPU 和数据中心的需求。谷歌发布了专为训练和推理设计的第八代 TPU（8t 和 8i），并获得了 Anthropic 等大客户的大规模订单，在硬件领域展现出强大竞争力。

💬 文章金句

- 网上对 Gemini 3.5 Flash 的评价非常一致，很快，但是不够好。

谷歌把 Gemini 放进所有入口以后，Gemini 3.5Flash 的糟糕体验，污染了谷歌所有产品。
Flash 模型平均每个任务需要 49 轮对话......而这样的任务，GPT-5.5 或者 Opus 4.7，差不多只用 20 轮就能完成。
谷歌正在成为硬件公司......TPU 反而是他们现在最硬的叙事。
橘生淮南则为橘，生于淮北则为枳。

📊 文章信息

AI 初评：85

来源：人人都是产品经理

作者：人人都是产品经理

分类：人工智能

语言：中文

阅读时间：24 分钟

字数：5996

标签： Gemini 3.5 Flash, 谷歌, AI 模型, TPU, 模型评测

阅读完整文章

谷歌全家桶，都被新模型“污染”了

🤖 問 AI