阿里巴巴发布了图像生成与编辑统一模型 Wan2.7-Image,该模型在人类偏好盲测中位列国内第一,并针对‘AI 脸’同质化、色彩控制不准、长文本渲染等痛点,推出了千人千面捏脸、调色盘、超长文本渲染等创新功能。
📝 详细摘要
阿里巴巴于 4 月 1 日发布了其图像生成与编辑统一模型 Wan2.7-Image。文章重点介绍了该模型针对当前 AI 生图领域主要痛点的解决方案:通过强化捏脸功能实现‘千人千面’的人物生成,告别‘标准脸’;新增‘调色盘’功能,支持通过 Hex Code 精准提取和输入颜色,解决‘色彩盲盒’问题;利用长上下文文本编码器,实现了对超长文字、表格和复杂公式的印刷级渲染。此外,模型还具备强大的图生组图、交互式编辑、多主体一致性保持等全链路能力。文章称,在人类偏好盲测中,其文生图能力超过 GPT-Image1.5 和国内主流模型,接近 Nano Banana Pro。模型已在通义万相官网、阿里云百炼等平台上线。
💡 主要观点
- Wan2.7-Image 在人类偏好盲测中表现优异,文生图能力国内领先。 根据文章,该模型在人类偏好盲测评分中位列国内第一,其文生图能力超过 GPT-Image1.5 和国内主流模型,在文本渲染、照片级成像等指标上接近 Nano Banana Pro。
💬 文章金句
- Wan2.7-Image 具备文生图、图生组图、图像指令编辑和交互式编辑等全链路能力。
- 为告别千篇一律的‘AI 脸’,Wan2.7-Image 强化了虚拟形象捏脸功能,支持从骨相、眼眸到五官细微处的全方位定制,实现‘千人千面’。
- Wan2.7-Image 全新支持‘调色盘’功能,用户可通过 Hex Code,一键提取或输入参考图的各种颜色和占比。
- 凭借长上下文文本编码(Long Context Text Encoder)解析超长序列,Wan2.7-Image 对超长文字、表格和复杂公式的渲染可达印刷级。
- 在训练流程中引入多模态指令(比如文字 + 图片),使得模型实现了从单纯‘像素拟合’到‘底层语义认知’的飞跃。
📊 文章信息
AI 初评:87
来源:量子位
作者:量子位的朋友们
分类:人工智能
语言:中文
阅读时间:7 分钟
字数:1527
标签: Wan2.7-Image, 阿里巴巴, 图像生成, 多模态模型, AI 生图