← 回總覽

MiniMax Agent 更新:这次我们重新设计了 Agent 操作电脑的方式

📅 2026-04-14 15:07 MiniMax 稀宇科技 人工智能 2 分鐘 1870 字 評分: 92
AI Agent MiniMax Computer Use 桌面自动化 RPA
📌 一句话摘要 MiniMax 发布了其 Agent 桌面端的两项重要更新:Pocket 功能支持通过 IM 远程操控电脑,以及 Computer Use 功能使 Agent 能像人一样通过视觉识别操作图形界面软件,并详细阐述了其背后的技术实现与设计思考。 📝 详细摘要 本文是 MiniMax 官方对其 Agent 桌面端产品更新的技术发布与深度解析。文章宣布了两项核心功能:Pocket(Beta)允许用户通过飞书、微信等 IM 软件远程向自己电脑上的 Agent 发送指令并接收结果;Computer Use 则让 Agent 具备了通过视觉识别屏幕、操作鼠标键盘来直接控制本地图形界面软件

📌 一句话摘要

MiniMax 发布了其 Agent 桌面端的两项重要更新:Pocket 功能支持通过 IM 远程操控电脑,以及 Computer Use 功能使 Agent 能像人一样通过视觉识别操作图形界面软件,并详细阐述了其背后的技术实现与设计思考。

📝 详细摘要

本文是 MiniMax 官方对其 Agent 桌面端产品更新的技术发布与深度解析。文章宣布了两项核心功能:Pocket(Beta)允许用户通过飞书、微信等 IM 软件远程向自己电脑上的 Agent 发送指令并接收结果;Computer Use 则让 Agent 具备了通过视觉识别屏幕、操作鼠标键盘来直接控制本地图形界面软件的能力。文章通过远程找文件、筛选简历生成飞书文档、操作系统设置等三个具体案例,生动展示了新功能的实用价值。更重要的是,文章深入剖析了实现这些功能背后的四大技术思考:将桌面操作拆解为四个独立的工具域而非单一万能工具;通过坐标系统统一和自适应截图解决多屏幕视觉感知问题;采用“截图-验证-行动”循环确保多步任务的可靠性;以及通过 IM 进行远程权限授权来保障安全。这体现了 MiniMax 在 Agent 基础能力工程化上的深度探索。

💡 主要观点

- Agent 的操作范围从命令行扩展到完整的图形界面,实现了对本地软件和系统设置的直接控制。 通过 Computer Use 功能,Agent 能够“看到”屏幕并操作鼠标键盘,从而完成过去只能由人工在图形界面中执行的任务,如操作设计工具、内部系统或系统偏好设置,极大地扩展了 Agent 的适用场景。

通过 IM 集成(Pocket)实现远程、无缝的 Agent 交互与控制,并将权限管理融入其中。 Pocket 功能将飞书、微信等 IM 软件变为 Agent 的远程控制台,用户可随时随地发起任务。同时,关键操作(如删除文件)会在 IM 中请求用户授权,确保了远程操作的安全性,实现了便利与控制的平衡。
实现稳定可靠的桌面自动化需要精细的工程架构,而非简单的像素坐标模拟。 MiniMax 将桌面操作拆解为 Desktop Control、Window Manager、Browser Engine、Clipboard 四个工具域,并配合 CLI 工具,让 Agent 根据任务选择最优执行路径,提高了精度和可靠性。
“截图-验证-行动”循环与自适应视觉处理是保障长任务成功的关键技术。 通过统一坐标系统和动态缩放截图解决多屏幕适配问题,并在每一步操作后自动截图验证结果,形成闭环。若失败则进入诊断和重试流程,显著降低了多步复杂任务的整体失败率。

💬 文章金句

- 命令行是 Agent 在终端中完成工作的常见形态,但用户的工作并不只发生在命令行内,电脑上还有大量任务藏在命令行无法触达的本地软件、内部系统和图形界面中。

  • 我们将桌面操作拆成四个独立的工具域:Desktop Control、Window Manager、Browser Engine、Clipboard。这样做的原因是:不同任务的最优执行路径不一样。
  • 模型不直接输出像素坐标,而是输出一个 0 到 1 之间的相对位置,由系统根据当前屏幕分辨率换算为真实坐标执行。模型不需要知道用户用的是什么屏幕,操作精度在所有设备上保持一致。
  • 我们给每一步桌面操作都接上了一个验证环节:操作执行完,立刻自动截图,让模型看一眼‘刚才那一步真的做到了吗’。
  • 当 Agent 准备执行文件删除等操作时,会暂停下来,把这一步的具体内容推送到用户的 IM 对话里……用户能对 Agent 的每一个关键动作保持完整的知情权与控制权。

📊 文章信息

AI 初评:92

精选文章:是

来源:MiniMax 稀宇科技

作者:MiniMax 稀宇科技

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2693

标签: AI Agent, MiniMax, Computer Use, 桌面自动化, RPA

阅读完整文章

查看原文 → 發佈: 2026-04-14 15:07:00 收錄: 2026-04-15 00:00:52

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。