本文介绍了明略科技最新发布的纯视觉 GUI 智能体模型 Mano-P 1.0,该模型在 13 个多模态基准榜单上达到 SOTA,支持本地运行、数据不上云,并提出了从 AGI 迈向 Personalized AI 的演进方向。
📝 详细摘要
文章详细报道了明略科技自研的 GUI-VLA 智能体模型 Mano-P 1.0 的发布。该模型在 OSWorld、WebRetriever 等 13 个权威基准测试中取得 SOTA 成绩,其核心优势在于纯视觉交互、支持本地运行(数据零上云)以及开源策略。文章通过专访揭示了模型名称中「P」的含义——Personalized AI,即从追求通用智能转向服务于个人或组织的个性化智能。技术层面,文章介绍了其双向自增强学习框架、在线强化学习、视觉 Token 剪枝等创新点,并阐述了其三步开源计划(Skill、模型、方法论),旨在降低 GUI Agent 的落地门槛,实现跨桌面软件和网页的全场景自动化操作。
💡 主要观点
- Mano-P 1.0 在 GUI Agent 领域实现断崖式领先,于 13 个多模态基准榜单取得 SOTA。 该模型在权威测试 OSWorld 上以 58.2% 的成功率位列专用模型第一,并在 WebRetriever 上超越 Gemini 2.5 Pro 等通用模型,证明了其强大的 GUI 理解与操作能力。
💬 文章金句
- Mano-P 在全球 13 个多模态基准榜单上达到 SOTA,覆盖 GUI Grounding、CUA、感知认知、视频理解、上下文学习等多个维度,呈现出「屠榜式」的断崖领先。
- Mano-P 走了一条完全不同的路,支持本地运行,数据完全不上云。
- 我们已经断定现在正处在两个时代的交界点上……就是 AGI 的时代和 Personalized AI 的时代。
- 其实我们要找的是在这些解里面,对于个人或者对于某个组织、某个集体而言价值最大的那个解。
- 我们相信,个体和组织都能够创造属于自己的个性化 AI。
📊 文章信息
AI 初评:91
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:24 分钟
字数:5923
标签: GUI Agent, Mano-P, 端侧AI, 个性化AI, 多模态大模型