← 回總覽

阿里神秘视频模型 HappyHorse-1.0 登顶榜单:原生音视频同步与开源预期

📅 2026-04-10 16:05 AI前线 人工智能 2 分鐘 1289 字 評分: 88
HappyHorse 阿里巴巴 视频生成模型 音视频同步 ATH事业群
📌 一句话摘要 阿里巴巴自研视频模型 HappyHorse-1.0 凭借原生音视频联合生成架构登顶权威榜单,并计划于 4 月底上线 API 及开源相关权重。 📝 详细摘要 近日,一款名为 HappyHorse-1.0 的神秘模型在 Artificial Analysis 视频模型排行榜中超越 Seedance 2.0 等头部模型,随后被证实为阿里巴巴 ATH-AI 创新事业部自研产品。该模型采用统一的 40 层 Transformer 架构,实现了视频与音频在单次推理过程中的原生同步生成,支持 7 种语言口型对齐。技术上,它利用 DMD-2 蒸馏技术大幅提升去噪速度,并内置超分模块。尽管第

📌 一句话摘要

阿里巴巴自研视频模型 HappyHorse-1.0 凭借原生音视频联合生成架构登顶权威榜单,并计划于 4 月底上线 API 及开源相关权重。

📝 详细摘要

近日,一款名为 HappyHorse-1.0 的神秘模型在 Artificial Analysis 视频模型排行榜中超越 Seedance 2.0 等头部模型,随后被证实为阿里巴巴 ATH-AI 创新事业部自研产品。该模型采用统一的 40 层 Transformer 架构,实现了视频与音频在单次推理过程中的原生同步生成,支持 7 种语言口型对齐。技术上,它利用 DMD-2 蒸馏技术大幅提升去噪速度,并内置超分模块。尽管第三方评测对其「人文温度」仍有保留,但其在运动控制和提示词遵循度上的表现已展现出极强竞争力。阿里计划于 4 月 30 日上线 API,并有消息称将完整开源该模型,这可能对当前高门槛、高限制的 AI 视频行业产生冲击。

💡 主要观点

- HappyHorse-1.0 采用原生音视频联合生成架构。 不同于先视频后配音的传统流程,该模型让视频帧与音频 token 共享同一套 Transformer 序列,实现对话与环境音的天然同步。

利用 DMD-2 蒸馏技术实现高效推理。 通过仅需 8 步的去噪流程,在单张 H100 上生成 1080P 视频仅需约 38 秒,显著优于常规扩散模型。
阿里 ATH 事业部整合多方资源发力多模态 AI。 HappyHorse 是阿里新成立的 ATH 事业群首个重磅作品,由前快手 Kling 负责人张迪等顶尖专家领衔,标志着阿里 AI 组织架构调整后的实战成果。
开源预期可能重塑 AI 视频行业格局。 若该模型如传闻般完整开源权重与代码,将打破目前顶尖模型(如 Sora、Seedance)在可用性、定价和内容限制上的壁垒。

💬 文章金句

- HappyHorse 1.0 则另辟蹊径:文本、图像、视频帧与音频 token 共享同一套 40 层 Transformer 序列。

  • 当音频与视频在同一前向传播流程中生成时,对话、环境音、拟声音效均可天然同步,无需额外独立处理流程。
  • 如果 HappyHorse 1.0 能通过开源,在可用性、价格和使用限制上做到更优,那它就会是毫无悬念的赢家。

📊 文章信息

AI 评分:88

来源:AI前线

作者:AI前线

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3192

标签: HappyHorse, 阿里巴巴, 视频生成模型, 音视频同步, ATH事业群

阅读完整文章

查看原文 → 發佈: 2026-04-10 16:05:00 收錄: 2026-04-10 18:00:50

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。