重磅开源！240 亿参数力压 Nano Banana 2

📌 一句话摘要

京东探索研究院开源了业内首个强调「空间智能」的一体化图像编辑模型 JoyAI-Image-Edit，该模型通过耦合 MLLM 与 MMDiT 架构，实现了对图像中物体空间关系（移动、旋转）和相机视角的精准、一致编辑，并瞄准电商与具身智能两大核心应用场景。

📝 详细摘要

京东探索研究院于 4 月初开源了其自研的 JoyAI-Image-Edit 图像模型，旨在解决当前图像 AI 普遍存在的「会生成、不懂空间」问题。该模型总参数量达 240 亿，通过将 80 亿参数的多模态语言模型（MLLM）与 160 亿参数的多模态扩散 Transformer（MMDiT）耦合，构建了理解、生成、编辑的闭环，首次将「空间智能」深度融入模型架构。其核心能力包括三种空间编辑范式：物体移动、物体旋转和相机控制，能够生成保持几何一致性的新视角图像，并支持连续的空间漫游。文章通过大量 GIF 和图片对比，展示了该模型在电商商品多角度展示、具身智能动作预演等场景下的应用潜力，并强调其开源（Apache 2.0 协议）对社区的价值。文章最后指出，京东的 AI 战略并非追逐通用模型风口，而是聚焦于自身最具优势的零售、物流、工业等实体场景，进行深度落地。

💡 主要观点

- JoyAI-Image-Edit 是业内首个深度集成「空间智能」的开源一体化图像模型。 该模型通过 MLLM+MMDiT 的耦合架构，实现了从指令理解到图像生成的空间意图贯穿，解决了传统图像 AI 在透视、遮挡、比例等空间关系上的一致性难题。

模型的核心价值在于精准、一致的空间编辑能力，包括物体操控和相机视角变换。 用户可通过自然语言指令（如「相机右偏 30 度」）或框选操作，对图像中的物体进行移动、旋转，或生成全新的、几何关系正确的视角，为电商和机器人等场景提供高保真数据。

京东的 AI 战略是聚焦自身核心业务场景，而非追逐通用模型参数竞赛。 文章强调，京东将 AI 能力深度融入其「超级供应链」，在电商内容生成、具身智能数据生产等自身最具禀赋的领域进行突破，体现了「场景竞争」的务实路线。

以 Apache 2.0 协议开源，旨在降低行业门槛并推动空间智能技术普及。 开源此举不仅为开发者提供了强大的现成工具，更将空间智能这一通往更高级 AI 的关键能力交予社区，可能加速相关应用生态的发展。

💬 文章金句

- 它是熟练的「平面裱糊匠」，却不是懂事的「空间观察者」。

JoyAI-Image-Edit 的核心原则是理解、生成、编辑三者之间的闭环协作：更强的空间理解让生成和编辑更可控，而视角变换这类生成操作又反过来为空间推理提供新的证据。
对于服务着数百万商家的京东来说，这不是锦上添花，这是水和电。
空间理解能力，就是机器人「理解世界」的核心底座。
京东的 AI 布局始终死死咬住一条主线：聚焦自己最懂、最具禀赋的实体场景，把 AI 扎到产业最深处。
AI 的竞争，终究不是参数的竞争，而是场景的竞争、落地的竞争、价值的竞争。

📊 文章信息

AI 初评：88

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4065

标签：空间智能, 图像编辑, 多模态模型, 京东, 开源模型

阅读完整文章

重磅开源！240 亿参数力压 Nano Banana 2

🤖 問 AI