MiniMax 发布了其 Agent 桌面端的两项重要更新:Pocket 功能支持通过 IM 远程操控电脑,以及 Computer Use 功能使 Agent 能像人一样通过视觉识别操作图形界面软件,并详细阐述了其背后的技术实现与设计思考。
📝 详细摘要
本文是 MiniMax 官方对其 Agent 桌面端产品更新的技术发布与深度解析。文章宣布了两项核心功能:Pocket(Beta)允许用户通过飞书、微信等 IM 软件远程向自己电脑上的 Agent 发送指令并接收结果;Computer Use 则让 Agent 具备了通过视觉识别屏幕、操作鼠标键盘来直接控制本地图形界面软件的能力。文章通过远程找文件、筛选简历生成飞书文档、操作系统设置等三个具体案例,生动展示了新功能的实用价值。更重要的是,文章深入剖析了实现这些功能背后的四大技术思考:将桌面操作拆解为四个独立的工具域而非单一万能工具;通过坐标系统统一和自适应截图解决多屏幕视觉感知问题;采用“截图-验证-行动”循环确保多步任务的可靠性;以及通过 IM 进行远程权限授权来保障安全。这体现了 MiniMax 在 Agent 基础能力工程化上的深度探索。
💡 主要观点
- Agent 的操作范围从命令行扩展到完整的图形界面,实现了对本地软件和系统设置的直接控制。 通过 Computer Use 功能,Agent 能够“看到”屏幕并操作鼠标键盘,从而完成过去只能由人工在图形界面中执行的任务,如操作设计工具、内部系统或系统偏好设置,极大地扩展了 Agent 的适用场景。
💬 文章金句
- 命令行是 Agent 在终端中完成工作的常见形态,但用户的工作并不只发生在命令行内,电脑上还有大量任务藏在命令行无法触达的本地软件、内部系统和图形界面中。
- 我们将桌面操作拆成四个独立的工具域:Desktop Control、Window Manager、Browser Engine、Clipboard。这样做的原因是:不同任务的最优执行路径不一样。
- 模型不直接输出像素坐标,而是输出一个 0 到 1 之间的相对位置,由系统根据当前屏幕分辨率换算为真实坐标执行。模型不需要知道用户用的是什么屏幕,操作精度在所有设备上保持一致。
- 我们给每一步桌面操作都接上了一个验证环节:操作执行完,立刻自动截图,让模型看一眼‘刚才那一步真的做到了吗’。
- 当 Agent 准备执行文件删除等操作时,会暂停下来,把这一步的具体内容推送到用户的 IM 对话里……用户能对 Agent 的每一个关键动作保持完整的知情权与控制权。
📊 文章信息
AI 初评:92
精选文章:是
来源:MiniMax 稀宇科技
作者:MiniMax 稀宇科技
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2693
标签: AI Agent, MiniMax, Computer Use, 桌面自动化, RPA