京东探索研究院开源了业内首个强调「空间智能」的一体化图像编辑模型 JoyAI-Image-Edit,该模型通过耦合 MLLM 与 MMDiT 架构,实现了对图像中物体空间关系(移动、旋转)和相机视角的精准、一致编辑,并瞄准电商与具身智能两大核心应用场景。
📝 详细摘要
京东探索研究院于 4 月初开源了其自研的 JoyAI-Image-Edit 图像模型,旨在解决当前图像 AI 普遍存在的「会生成、不懂空间」问题。该模型总参数量达 240 亿,通过将 80 亿参数的多模态语言模型(MLLM)与 160 亿参数的多模态扩散 Transformer(MMDiT)耦合,构建了理解、生成、编辑的闭环,首次将「空间智能」深度融入模型架构。其核心能力包括三种空间编辑范式:物体移动、物体旋转和相机控制,能够生成保持几何一致性的新视角图像,并支持连续的空间漫游。文章通过大量 GIF 和图片对比,展示了该模型在电商商品多角度展示、具身智能动作预演等场景下的应用潜力,并强调其开源(Apache 2.0 协议)对社区的价值。文章最后指出,京东的 AI 战略并非追逐通用模型风口,而是聚焦于自身最具优势的零售、物流、工业等实体场景,进行深度落地。
💡 主要观点
- JoyAI-Image-Edit 是业内首个深度集成「空间智能」的开源一体化图像模型。 该模型通过 MLLM+MMDiT 的耦合架构,实现了从指令理解到图像生成的空间意图贯穿,解决了传统图像 AI 在透视、遮挡、比例等空间关系上的一致性难题。
💬 文章金句
- 它是熟练的「平面裱糊匠」,却不是懂事的「空间观察者」。
- JoyAI-Image-Edit 的核心原则是理解、生成、编辑三者之间的闭环协作:更强的空间理解让生成和编辑更可控,而视角变换这类生成操作又反过来为空间推理提供新的证据。
- 对于服务着数百万商家的京东来说,这不是锦上添花,这是水和电。
- 空间理解能力,就是机器人「理解世界」的核心底座。
- 京东的 AI 布局始终死死咬住一条主线:聚焦自己最懂、最具禀赋的实体场景,把 AI 扎到产业最深处。
- AI 的竞争,终究不是参数的竞争,而是场景的竞争、落地的竞争、价值的竞争。
📊 文章信息
AI 初评:88
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4065
标签: 空间智能, 图像编辑, 多模态模型, 京东, 开源模型