全球第一，13 个 SOTA！我们找到了龙虾界掌管 GUI 的神

📌 一句话摘要

本文介绍了明略科技最新发布的纯视觉 GUI 智能体模型 Mano-P 1.0，该模型在 13 个多模态基准榜单上达到 SOTA，支持本地运行、数据不上云，并提出了从 AGI 迈向 Personalized AI 的演进方向。

📝 详细摘要

文章详细报道了明略科技自研的 GUI-VLA 智能体模型 Mano-P 1.0 的发布。该模型在 OSWorld、WebRetriever 等 13 个权威基准测试中取得 SOTA 成绩，其核心优势在于纯视觉交互、支持本地运行（数据零上云）以及开源策略。文章通过专访揭示了模型名称中「P」的含义——Personalized AI，即从追求通用智能转向服务于个人或组织的个性化智能。技术层面，文章介绍了其双向自增强学习框架、在线强化学习、视觉 Token 剪枝等创新点，并阐述了其三步开源计划（Skill、模型、方法论），旨在降低 GUI Agent 的落地门槛，实现跨桌面软件和网页的全场景自动化操作。

💡 主要观点

- Mano-P 1.0 在 GUI Agent 领域实现断崖式领先，于 13 个多模态基准榜单取得 SOTA。 该模型在权威测试 OSWorld 上以 58.2% 的成功率位列专用模型第一，并在 WebRetriever 上超越 Gemini 2.5 Pro 等通用模型，证明了其强大的 GUI 理解与操作能力。

模型核心优势是纯视觉交互与本地化运行，实现了数据安全和隐私保护。 Mano-P 不依赖浏览器协议或云端 API，通过视觉直接理解并操作界面，所有推理在本地设备（如 M4 Mac）完成，数据完全不上云，解决了现有方案的数据安全痛点。

提出了从 AGI 到 Personalized AI 的演进方向，强调 AI 应服务于个体或组织的特定需求。 通过专访指出，未来的 AI 不应仅追求通用最优解，而应能结合个人或组织的私有经验与偏好进行推理，Mano-P 正是这一理念的技术载体。

采用三步走开源策略，逐步释放技能、模型和训练方法，旨在构建完整生态。 开源计划从即用的 CLI 工具和 Agent Skill 开始，随后开放本地模型，最终公开核心训练框架（如双向自增强学习），降低开发者使用和定制门槛。

💬 文章金句

- Mano-P 在全球 13 个多模态基准榜单上达到 SOTA，覆盖 GUI Grounding、CUA、感知认知、视频理解、上下文学习等多个维度，呈现出「屠榜式」的断崖领先。

Mano-P 走了一条完全不同的路，支持本地运行，数据完全不上云。
我们已经断定现在正处在两个时代的交界点上……就是 AGI 的时代和 Personalized AI 的时代。
其实我们要找的是在这些解里面，对于个人或者对于某个组织、某个集体而言价值最大的那个解。
我们相信，个体和组织都能够创造属于自己的个性化 AI。

📊 文章信息

AI 初评：91

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：24 分钟

字数：5923

标签： GUI Agent, Mano-P, 端侧AI, 个性化AI, 多模态大模型

阅读完整文章

全球第一，13 个 SOTA！我们找到了龙虾界掌管 GUI 的神

🤖 問 AI