← 回總覽

全球第一,13 个 SOTA!我们找到了龙虾界掌管 GUI 的神

📅 2026-04-13 11:58 机器之心 人工智能 2 分鐘 1535 字 評分: 91
GUI Agent Mano-P 端侧AI 个性化AI 多模态大模型
📌 一句话摘要 本文介绍了明略科技最新发布的纯视觉 GUI 智能体模型 Mano-P 1.0,该模型在 13 个多模态基准榜单上达到 SOTA,支持本地运行、数据不上云,并提出了从 AGI 迈向 Personalized AI 的演进方向。 📝 详细摘要 文章详细报道了明略科技自研的 GUI-VLA 智能体模型 Mano-P 1.0 的发布。该模型在 OSWorld、WebRetriever 等 13 个权威基准测试中取得 SOTA 成绩,其核心优势在于纯视觉交互、支持本地运行(数据零上云)以及开源策略。文章通过专访揭示了模型名称中「P」的含义——Personalized AI,即从追求通

📌 一句话摘要

本文介绍了明略科技最新发布的纯视觉 GUI 智能体模型 Mano-P 1.0,该模型在 13 个多模态基准榜单上达到 SOTA,支持本地运行、数据不上云,并提出了从 AGI 迈向 Personalized AI 的演进方向。

📝 详细摘要

文章详细报道了明略科技自研的 GUI-VLA 智能体模型 Mano-P 1.0 的发布。该模型在 OSWorld、WebRetriever 等 13 个权威基准测试中取得 SOTA 成绩,其核心优势在于纯视觉交互、支持本地运行(数据零上云)以及开源策略。文章通过专访揭示了模型名称中「P」的含义——Personalized AI,即从追求通用智能转向服务于个人或组织的个性化智能。技术层面,文章介绍了其双向自增强学习框架、在线强化学习、视觉 Token 剪枝等创新点,并阐述了其三步开源计划(Skill、模型、方法论),旨在降低 GUI Agent 的落地门槛,实现跨桌面软件和网页的全场景自动化操作。

💡 主要观点

- Mano-P 1.0 在 GUI Agent 领域实现断崖式领先,于 13 个多模态基准榜单取得 SOTA。 该模型在权威测试 OSWorld 上以 58.2% 的成功率位列专用模型第一,并在 WebRetriever 上超越 Gemini 2.5 Pro 等通用模型,证明了其强大的 GUI 理解与操作能力。

模型核心优势是纯视觉交互与本地化运行,实现了数据安全和隐私保护。 Mano-P 不依赖浏览器协议或云端 API,通过视觉直接理解并操作界面,所有推理在本地设备(如 M4 Mac)完成,数据完全不上云,解决了现有方案的数据安全痛点。
提出了从 AGI 到 Personalized AI 的演进方向,强调 AI 应服务于个体或组织的特定需求。 通过专访指出,未来的 AI 不应仅追求通用最优解,而应能结合个人或组织的私有经验与偏好进行推理,Mano-P 正是这一理念的技术载体。
采用三步走开源策略,逐步释放技能、模型和训练方法,旨在构建完整生态。 开源计划从即用的 CLI 工具和 Agent Skill 开始,随后开放本地模型,最终公开核心训练框架(如双向自增强学习),降低开发者使用和定制门槛。

💬 文章金句

- Mano-P 在全球 13 个多模态基准榜单上达到 SOTA,覆盖 GUI Grounding、CUA、感知认知、视频理解、上下文学习等多个维度,呈现出「屠榜式」的断崖领先。

  • Mano-P 走了一条完全不同的路,支持本地运行,数据完全不上云。
  • 我们已经断定现在正处在两个时代的交界点上……就是 AGI 的时代和 Personalized AI 的时代。
  • 其实我们要找的是在这些解里面,对于个人或者对于某个组织、某个集体而言价值最大的那个解。
  • 我们相信,个体和组织都能够创造属于自己的个性化 AI。

📊 文章信息

AI 初评:91

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:24 分钟

字数:5923

标签: GUI Agent, Mano-P, 端侧AI, 个性化AI, 多模态大模型

阅读完整文章

查看原文 → 發佈: 2026-04-13 11:58:00 收錄: 2026-04-13 18:00:41

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。