Meta 的新模型 Muse Spark 与 meta.ai 聊天中的有趣工具

📌 一句话摘要

Simon Willison 深入探讨了 Meta 的新模型 Muse Spark，揭示了其包含代码执行、视觉定位和子智能体生成在内的复杂工具集。

📝 详细摘要

Meta 发布了 Muse Spark，这是一款足以与 GPT-5.4 和 Gemini 3.1 Pro 竞争的前沿模型。虽然目前仅提供私有 API，但用户已可通过 meta.ai 进行体验。技术专家 Simon Willison 对该模型的能力进行了分析，发现了一套强大的隐藏工具集。其核心功能包括：Python 代码解释器（运行 Python 3.9）、用于精确对象定位（边界框和点）的“视觉定位”工具，以及生成子智能体的能力。该模型在生成和分析 SVG/HTML 工件以及执行复杂的视觉计数任务（例如识别拥挤图像中的单个鹈鹕）方面表现出极高的水平。

💡 主要观点

- Meta 的 Muse Spark 标志着其重返前沿模型竞争。 基准测试显示其性能接近 GPT-5.4 和 Gemini 3.1 Pro，相较于上一代 Llama 4，在效率和能力上实现了巨大飞跃。

该模型采用了高度集成且透明的工具使用架构。 它集成了 16 种不同的工具，包括浏览器访问、跨 Meta 社交平台的语义搜索，以及用于数据分析的 Python 沙盒。

先进的视觉定位能力实现了精确的图像交互。 通过 visual_grounding（视觉定位）工具，模型能够以像素级坐标执行对象检测、计数和定位，超越了标准的 VLM 描述能力。

Meta AI 采用了类似“Artifacts”的方法来处理交互式内容。 系统可以在聊天界面中生成并渲染 HTML、SVG 和 JavaScript 交互内容，通常将工具输出封装在自定义的可视化组件中。

💬 文章金句

- Meta 自己表示，他们‘将继续投资于当前存在性能差距的领域，例如长周期智能体系统和编码工作流’。

Meta AI 可以在其容器中创建 HTML+JavaScript 文件，这些文件随后可以作为安全的沙盒 iframe 交互内容进行呈现。
因此，Meta AI 的默认工具集中内置了数浣熊胡须的能力。
我们能够以比上一代模型 Llama 4 Maverick 少一个数量级的计算量，达到相同的能力水平。

📊 文章信息

AI 评分：92

来源：Simon Willison's Weblog

作者：Simon Willison

分类：人工智能

语言：英文

阅读时间：7 分钟

字数：1738

标签： Meta AI, Muse Spark, 视觉定位, 代码解释器, LLM 工具

阅读完整文章

Meta 的新模型 Muse Spark 与 meta.ai 聊天中的有趣工具

🤖 問 AI