MiniMax Agent 更新：这次我们重新设计了 Agent 操作电脑的方式

📌 一句话摘要

MiniMax 发布了其 Agent 桌面端的两项重要更新：Pocket 功能支持通过 IM 远程操控电脑，以及 Computer Use 功能使 Agent 能像人一样通过视觉识别操作图形界面软件，并详细阐述了其背后的技术实现与设计思考。

📝 详细摘要

本文是 MiniMax 官方对其 Agent 桌面端产品更新的技术发布与深度解析。文章宣布了两项核心功能：Pocket（Beta）允许用户通过飞书、微信等 IM 软件远程向自己电脑上的 Agent 发送指令并接收结果；Computer Use 则让 Agent 具备了通过视觉识别屏幕、操作鼠标键盘来直接控制本地图形界面软件的能力。文章通过远程找文件、筛选简历生成飞书文档、操作系统设置等三个具体案例，生动展示了新功能的实用价值。更重要的是，文章深入剖析了实现这些功能背后的四大技术思考：将桌面操作拆解为四个独立的工具域而非单一万能工具；通过坐标系统统一和自适应截图解决多屏幕视觉感知问题；采用“截图-验证-行动”循环确保多步任务的可靠性；以及通过 IM 进行远程权限授权来保障安全。这体现了 MiniMax 在 Agent 基础能力工程化上的深度探索。

💡 主要观点

- Agent 的操作范围从命令行扩展到完整的图形界面，实现了对本地软件和系统设置的直接控制。 通过 Computer Use 功能，Agent 能够“看到”屏幕并操作鼠标键盘，从而完成过去只能由人工在图形界面中执行的任务，如操作设计工具、内部系统或系统偏好设置，极大地扩展了 Agent 的适用场景。

通过 IM 集成（Pocket）实现远程、无缝的 Agent 交互与控制，并将权限管理融入其中。 Pocket 功能将飞书、微信等 IM 软件变为 Agent 的远程控制台，用户可随时随地发起任务。同时，关键操作（如删除文件）会在 IM 中请求用户授权，确保了远程操作的安全性，实现了便利与控制的平衡。

实现稳定可靠的桌面自动化需要精细的工程架构，而非简单的像素坐标模拟。 MiniMax 将桌面操作拆解为 Desktop Control、Window Manager、Browser Engine、Clipboard 四个工具域，并配合 CLI 工具，让 Agent 根据任务选择最优执行路径，提高了精度和可靠性。

“截图-验证-行动”循环与自适应视觉处理是保障长任务成功的关键技术。 通过统一坐标系统和动态缩放截图解决多屏幕适配问题，并在每一步操作后自动截图验证结果，形成闭环。若失败则进入诊断和重试流程，显著降低了多步复杂任务的整体失败率。

💬 文章金句

- 命令行是 Agent 在终端中完成工作的常见形态，但用户的工作并不只发生在命令行内，电脑上还有大量任务藏在命令行无法触达的本地软件、内部系统和图形界面中。

我们将桌面操作拆成四个独立的工具域：Desktop Control、Window Manager、Browser Engine、Clipboard。这样做的原因是：不同任务的最优执行路径不一样。
模型不直接输出像素坐标，而是输出一个 0 到 1 之间的相对位置，由系统根据当前屏幕分辨率换算为真实坐标执行。模型不需要知道用户用的是什么屏幕，操作精度在所有设备上保持一致。
我们给每一步桌面操作都接上了一个验证环节：操作执行完，立刻自动截图，让模型看一眼‘刚才那一步真的做到了吗’。
当 Agent 准备执行文件删除等操作时，会暂停下来，把这一步的具体内容推送到用户的 IM 对话里……用户能对 Agent 的每一个关键动作保持完整的知情权与控制权。

📊 文章信息

AI 初评：92

精选文章：是

来源：MiniMax 稀宇科技

作者：MiniMax 稀宇科技

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2693

标签： AI Agent, MiniMax, Computer Use, 桌面自动化, RPA

阅读完整文章

MiniMax Agent 更新：这次我们重新设计了 Agent 操作电脑的方式

🤖 問 AI