Simon Willison 深入探讨了 Meta 的新模型 Muse Spark,揭示了其包含代码执行、视觉定位和子智能体生成在内的复杂工具集。
📝 详细摘要
Meta 发布了 Muse Spark,这是一款足以与 GPT-5.4 和 Gemini 3.1 Pro 竞争的前沿模型。虽然目前仅提供私有 API,但用户已可通过 meta.ai 进行体验。技术专家 Simon Willison 对该模型的能力进行了分析,发现了一套强大的隐藏工具集。其核心功能包括:Python 代码解释器(运行 Python 3.9)、用于精确对象定位(边界框和点)的“视觉定位”工具,以及生成子智能体的能力。该模型在生成和分析 SVG/HTML 工件以及执行复杂的视觉计数任务(例如识别拥挤图像中的单个鹈鹕)方面表现出极高的水平。
💡 主要观点
- Meta 的 Muse Spark 标志着其重返前沿模型竞争。 基准测试显示其性能接近 GPT-5.4 和 Gemini 3.1 Pro,相较于上一代 Llama 4,在效率和能力上实现了巨大飞跃。
visual_grounding(视觉定位)工具,模型能够以像素级坐标执行对象检测、计数和定位,超越了标准的 VLM 描述能力。
💬 文章金句
- Meta 自己表示,他们‘将继续投资于当前存在性能差距的领域,例如长周期智能体系统和编码工作流’。
- Meta AI 可以在其容器中创建 HTML+JavaScript 文件,这些文件随后可以作为安全的沙盒 iframe 交互内容进行呈现。
- 因此,Meta AI 的默认工具集中内置了数浣熊胡须的能力。
- 我们能够以比上一代模型 Llama 4 Maverick 少一个数量级的计算量,达到相同的能力水平。
📊 文章信息
AI 评分:92
来源:Simon Willison's Weblog
作者:Simon Willison
分类:人工智能
语言:英文
阅读时间:7 分钟
字数:1738
标签: Meta AI, Muse Spark, 视觉定位, 代码解释器, LLM 工具