本地 4B 开源模型，把任何 App 当 Skill 用！告别 token 焦虑，私密性强～

📌 一句话摘要

本文介绍了开源端侧 GUI 操作模型 Mano-P 4B 与推理加速框架 Cider 的组合方案，通过本地运行解决云端 GUI Agent 的 token 高消耗和隐私问题，并展示了其在社交媒体互动、E2E 测试和游戏操作等场景的实际效果。

📝 详细摘要

文章围绕「端侧 GUI Agent」这一主题展开，作者首先指出当前云端 GUI 操作方案（如 CUA）存在 token 消耗大和数据上云隐私风险两大痛点。随后介绍了两个开源项目：Mano-P 是一个专为 GUI 操作设计的端侧 VLA 模型，4B 版本可在 Mac 本地运行，峰值内存仅 4.3GB，不依赖 CDP 或 HTML 解析，纯视觉驱动；Cider 是基于 Apple MLX 的推理加速框架，首次在 Apple GPU 上实现硬件加速 INT8 TensorOps，可提升推理速度 1.4-1.9 倍。作者通过三个实际案例验证了组合效果：自动浏览小红书并互动（展示了视觉反馈纠偏能力）、对开源项目 tiktok-gen 进行 E2E 测试（Codex 调度 + Mano-P 执行）、以及操作 4399 扫雷游戏（突破了 Playwright 无法处理 Canvas 的限制）。文章指出，4B 小模型在 GUI 操作上表现专业，但需要搭配聪明的大模型进行调度和纠偏，组合使用效果最佳。

💡 主要观点

- Mano-P 4B 端侧模型解决了云端 GUI Agent 的 token 消耗和隐私问题。 4B 模型可在 Mac 本地运行，量化后峰值内存仅 4.3GB，截图和任务数据不出设备，物理上杜绝了数据上云的风险，同时大幅降低 token 成本。

Cider 推理加速框架补齐了 Apple MLX 的 INT8 计算短板，提升本地推理效率。 Cider 是首个在 Apple GPU 上实现硬件加速 INT8 TensorOps 的框架，W8A8 模式比 MLX 原生的 W4A16 快 1.4-1.9 倍，支持 Qwen、Llama 等主流模型。

纯视觉驱动的 GUI Agent 突破了传统浏览器自动化的限制。 Mano-P 不依赖 CDP 协议或 DOM 树解析，直接通过截图理解界面，因此能操作 Canvas 渲染页面、桌面软件、游戏界面等 Playwright 等工具无法处理的场景。

端侧小模型需要搭配聪明的大模型进行调度和纠偏。 4B 模型在 GUI 操作上表现专业，但偶尔会跑偏或卡住，需要 Codex 等大模型作为监督者及时纠偏，组合使用比单独使用效果更好。

💬 文章金句

- 本地 GUI 操作不花或少花 token，数据不出设备，这不是安全协议上写的'我们承诺不看你的截图数据'，而是物理上数据就没出过你的电脑。

端侧模型不需要具备通用性，而是在某一个具体场景深耕、打穿。
它不是在机械执行，而是能根据界面的视觉反馈来判断操作是否正确，并自动纠偏。

📊 文章信息

AI 初评：85

来源：袋鼠帝AI客栈

作者：袋鼠帝AI客栈

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3227

标签：端侧 AI, GUI Agent, Mano-P, Cider, Apple MLX

阅读完整文章

本地 4B 开源模型，把任何 App 当 Skill 用！告别 token 焦虑，私密性强～

🤖 問 AI