阿里巴巴自研视频模型 HappyHorse-1.0 凭借原生音视频联合生成架构登顶权威榜单,并计划于 4 月底上线 API 及开源相关权重。
📝 详细摘要
近日,一款名为 HappyHorse-1.0 的神秘模型在 Artificial Analysis 视频模型排行榜中超越 Seedance 2.0 等头部模型,随后被证实为阿里巴巴 ATH-AI 创新事业部自研产品。该模型采用统一的 40 层 Transformer 架构,实现了视频与音频在单次推理过程中的原生同步生成,支持 7 种语言口型对齐。技术上,它利用 DMD-2 蒸馏技术大幅提升去噪速度,并内置超分模块。尽管第三方评测对其「人文温度」仍有保留,但其在运动控制和提示词遵循度上的表现已展现出极强竞争力。阿里计划于 4 月 30 日上线 API,并有消息称将完整开源该模型,这可能对当前高门槛、高限制的 AI 视频行业产生冲击。
💡 主要观点
- HappyHorse-1.0 采用原生音视频联合生成架构。 不同于先视频后配音的传统流程,该模型让视频帧与音频 token 共享同一套 Transformer 序列,实现对话与环境音的天然同步。
💬 文章金句
- HappyHorse 1.0 则另辟蹊径:文本、图像、视频帧与音频 token 共享同一套 40 层 Transformer 序列。
- 当音频与视频在同一前向传播流程中生成时,对话、环境音、拟声音效均可天然同步,无需额外独立处理流程。
- 如果 HappyHorse 1.0 能通过开源,在可用性、价格和使用限制上做到更优,那它就会是毫无悬念的赢家。
📊 文章信息
AI 评分:88
来源:AI前线
作者:AI前线
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3192
标签: HappyHorse, 阿里巴巴, 视频生成模型, 音视频同步, ATH事业群