← 回總覽

阿里发布 Wan2.7-Image,人类偏好盲测评分国内第一

📅 2026-04-20 16:59 量子位的朋友们 人工智能 2 分鐘 1546 字 評分: 87
Wan2.7-Image 阿里巴巴 图像生成 多模态模型 AI 生图
📌 一句话摘要 阿里巴巴发布了图像生成与编辑统一模型 Wan2.7-Image,该模型在人类偏好盲测中位列国内第一,并针对‘AI 脸’同质化、色彩控制不准、长文本渲染等痛点,推出了千人千面捏脸、调色盘、超长文本渲染等创新功能。 📝 详细摘要 阿里巴巴于 4 月 1 日发布了其图像生成与编辑统一模型 Wan2.7-Image。文章重点介绍了该模型针对当前 AI 生图领域主要痛点的解决方案:通过强化捏脸功能实现‘千人千面’的人物生成,告别‘标准脸’;新增‘调色盘’功能,支持通过 Hex Code 精准提取和输入颜色,解决‘色彩盲盒’问题;利用长上下文文本编码器,实现了对超长文字、表格和复杂公式

📌 一句话摘要

阿里巴巴发布了图像生成与编辑统一模型 Wan2.7-Image,该模型在人类偏好盲测中位列国内第一,并针对‘AI 脸’同质化、色彩控制不准、长文本渲染等痛点,推出了千人千面捏脸、调色盘、超长文本渲染等创新功能。

📝 详细摘要

阿里巴巴于 4 月 1 日发布了其图像生成与编辑统一模型 Wan2.7-Image。文章重点介绍了该模型针对当前 AI 生图领域主要痛点的解决方案:通过强化捏脸功能实现‘千人千面’的人物生成,告别‘标准脸’;新增‘调色盘’功能,支持通过 Hex Code 精准提取和输入颜色,解决‘色彩盲盒’问题;利用长上下文文本编码器,实现了对超长文字、表格和复杂公式的印刷级渲染。此外,模型还具备强大的图生组图、交互式编辑、多主体一致性保持等全链路能力。文章称,在人类偏好盲测中,其文生图能力超过 GPT-Image1.5 和国内主流模型,接近 Nano Banana Pro。模型已在通义万相官网、阿里云百炼等平台上线。

💡 主要观点

- Wan2.7-Image 在人类偏好盲测中表现优异,文生图能力国内领先。 根据文章,该模型在人类偏好盲测评分中位列国内第一,其文生图能力超过 GPT-Image1.5 和国内主流模型,在文本渲染、照片级成像等指标上接近 Nano Banana Pro。

模型针对‘AI 脸’同质化和色彩控制两大核心痛点进行了重点优化。 通过强化虚拟形象捏脸功能,支持从骨相到五官的细节定制,实现‘千人千面’。新增‘调色盘’功能,允许用户通过 Hex Code 精准控制颜色,解决了 AI 生图色彩随机性强的‘盲盒’问题。
Wan2.7-Image 具备从生成到编辑的全链路能力,应用场景广泛。 模型不仅支持文生图、图生组图,还原生支持交互式编辑、多主体一致性保持等功能。这些能力可应用于短剧制作、电商营销、教育科研等多个行业,降低创作成本。
模型能力的提升源于数据、架构和训练流程上的技术突破。 文章提及模型采用了生成与理解统一的架构、共享隐空间,并整合了理解类数据与多模态指令训练,实现了从‘像素拟合’到‘底层语义认知’的飞跃。

💬 文章金句

- Wan2.7-Image 具备文生图、图生组图、图像指令编辑和交互式编辑等全链路能力。

  • 为告别千篇一律的‘AI 脸’,Wan2.7-Image 强化了虚拟形象捏脸功能,支持从骨相、眼眸到五官细微处的全方位定制,实现‘千人千面’。
  • Wan2.7-Image 全新支持‘调色盘’功能,用户可通过 Hex Code,一键提取或输入参考图的各种颜色和占比。
  • 凭借长上下文文本编码(Long Context Text Encoder)解析超长序列,Wan2.7-Image 对超长文字、表格和复杂公式的渲染可达印刷级。
  • 在训练流程中引入多模态指令(比如文字 + 图片),使得模型实现了从单纯‘像素拟合’到‘底层语义认知’的飞跃。

📊 文章信息

AI 初评:87

来源:量子位

作者:量子位的朋友们

分类:人工智能

语言:中文

阅读时间:7 分钟

字数:1527

标签: Wan2.7-Image, 阿里巴巴, 图像生成, 多模态模型, AI 生图

阅读完整文章

查看原文 → 發佈: 2026-04-20 16:59:05 收錄: 2026-04-20 18:00:48

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。