← 回總覽

重磅开源!240 亿参数力压 Nano Banana 2

📅 2026-04-11 12:16 新智元 人工智能 2 分鐘 1576 字 評分: 88
空间智能 图像编辑 多模态模型 京东 开源模型
📌 一句话摘要 京东探索研究院开源了业内首个强调「空间智能」的一体化图像编辑模型 JoyAI-Image-Edit,该模型通过耦合 MLLM 与 MMDiT 架构,实现了对图像中物体空间关系(移动、旋转)和相机视角的精准、一致编辑,并瞄准电商与具身智能两大核心应用场景。 📝 详细摘要 京东探索研究院于 4 月初开源了其自研的 JoyAI-Image-Edit 图像模型,旨在解决当前图像 AI 普遍存在的「会生成、不懂空间」问题。该模型总参数量达 240 亿,通过将 80 亿参数的多模态语言模型(MLLM)与 160 亿参数的多模态扩散 Transformer(MMDiT)耦合,构建了理解、

📌 一句话摘要

京东探索研究院开源了业内首个强调「空间智能」的一体化图像编辑模型 JoyAI-Image-Edit,该模型通过耦合 MLLM 与 MMDiT 架构,实现了对图像中物体空间关系(移动、旋转)和相机视角的精准、一致编辑,并瞄准电商与具身智能两大核心应用场景。

📝 详细摘要

京东探索研究院于 4 月初开源了其自研的 JoyAI-Image-Edit 图像模型,旨在解决当前图像 AI 普遍存在的「会生成、不懂空间」问题。该模型总参数量达 240 亿,通过将 80 亿参数的多模态语言模型(MLLM)与 160 亿参数的多模态扩散 Transformer(MMDiT)耦合,构建了理解、生成、编辑的闭环,首次将「空间智能」深度融入模型架构。其核心能力包括三种空间编辑范式:物体移动、物体旋转和相机控制,能够生成保持几何一致性的新视角图像,并支持连续的空间漫游。文章通过大量 GIF 和图片对比,展示了该模型在电商商品多角度展示、具身智能动作预演等场景下的应用潜力,并强调其开源(Apache 2.0 协议)对社区的价值。文章最后指出,京东的 AI 战略并非追逐通用模型风口,而是聚焦于自身最具优势的零售、物流、工业等实体场景,进行深度落地。

💡 主要观点

- JoyAI-Image-Edit 是业内首个深度集成「空间智能」的开源一体化图像模型。 该模型通过 MLLM+MMDiT 的耦合架构,实现了从指令理解到图像生成的空间意图贯穿,解决了传统图像 AI 在透视、遮挡、比例等空间关系上的一致性难题。

模型的核心价值在于精准、一致的空间编辑能力,包括物体操控和相机视角变换。 用户可通过自然语言指令(如「相机右偏 30 度」)或框选操作,对图像中的物体进行移动、旋转,或生成全新的、几何关系正确的视角,为电商和机器人等场景提供高保真数据。
京东的 AI 战略是聚焦自身核心业务场景,而非追逐通用模型参数竞赛。 文章强调,京东将 AI 能力深度融入其「超级供应链」,在电商内容生成、具身智能数据生产等自身最具禀赋的领域进行突破,体现了「场景竞争」的务实路线。
以 Apache 2.0 协议开源,旨在降低行业门槛并推动空间智能技术普及。 开源此举不仅为开发者提供了强大的现成工具,更将空间智能这一通往更高级 AI 的关键能力交予社区,可能加速相关应用生态的发展。

💬 文章金句

- 它是熟练的「平面裱糊匠」,却不是懂事的「空间观察者」。

  • JoyAI-Image-Edit 的核心原则是理解、生成、编辑三者之间的闭环协作:更强的空间理解让生成和编辑更可控,而视角变换这类生成操作又反过来为空间推理提供新的证据。
  • 对于服务着数百万商家的京东来说,这不是锦上添花,这是水和电。
  • 空间理解能力,就是机器人「理解世界」的核心底座。
  • 京东的 AI 布局始终死死咬住一条主线:聚焦自己最懂、最具禀赋的实体场景,把 AI 扎到产业最深处。
  • AI 的竞争,终究不是参数的竞争,而是场景的竞争、落地的竞争、价值的竞争。

📊 文章信息

AI 初评:88

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4065

标签: 空间智能, 图像编辑, 多模态模型, 京东, 开源模型

阅读完整文章

查看原文 → 發佈: 2026-04-11 12:16:00 收錄: 2026-04-12 14:00:43

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。