阿里神秘视频模型 HappyHorse-1.0 登顶榜单：原生音视频同步与开源预期

📌 一句话摘要

阿里巴巴自研视频模型 HappyHorse-1.0 凭借原生音视频联合生成架构登顶权威榜单，并计划于 4 月底上线 API 及开源相关权重。

📝 详细摘要

近日，一款名为 HappyHorse-1.0 的神秘模型在 Artificial Analysis 视频模型排行榜中超越 Seedance 2.0 等头部模型，随后被证实为阿里巴巴 ATH-AI 创新事业部自研产品。该模型采用统一的 40 层 Transformer 架构，实现了视频与音频在单次推理过程中的原生同步生成，支持 7 种语言口型对齐。技术上，它利用 DMD-2 蒸馏技术大幅提升去噪速度，并内置超分模块。尽管第三方评测对其「人文温度」仍有保留，但其在运动控制和提示词遵循度上的表现已展现出极强竞争力。阿里计划于 4 月 30 日上线 API，并有消息称将完整开源该模型，这可能对当前高门槛、高限制的 AI 视频行业产生冲击。

💡 主要观点

- HappyHorse-1.0 采用原生音视频联合生成架构。 不同于先视频后配音的传统流程，该模型让视频帧与音频 token 共享同一套 Transformer 序列，实现对话与环境音的天然同步。

利用 DMD-2 蒸馏技术实现高效推理。 通过仅需 8 步的去噪流程，在单张 H100 上生成 1080P 视频仅需约 38 秒，显著优于常规扩散模型。

阿里 ATH 事业部整合多方资源发力多模态 AI。 HappyHorse 是阿里新成立的 ATH 事业群首个重磅作品，由前快手 Kling 负责人张迪等顶尖专家领衔，标志着阿里 AI 组织架构调整后的实战成果。

开源预期可能重塑 AI 视频行业格局。 若该模型如传闻般完整开源权重与代码，将打破目前顶尖模型（如 Sora、Seedance）在可用性、定价和内容限制上的壁垒。

💬 文章金句

- HappyHorse 1.0 则另辟蹊径：文本、图像、视频帧与音频 token 共享同一套 40 层 Transformer 序列。

当音频与视频在同一前向传播流程中生成时，对话、环境音、拟声音效均可天然同步，无需额外独立处理流程。
如果 HappyHorse 1.0 能通过开源，在可用性、价格和使用限制上做到更优，那它就会是毫无悬念的赢家。

📊 文章信息

AI 评分：88

来源：AI前线

作者：AI前线

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3192

标签： HappyHorse, 阿里巴巴, 视频生成模型, 音视频同步, ATH事业群

阅读完整文章

阿里神秘视频模型 HappyHorse-1.0 登顶榜单：原生音视频同步与开源预期

🤖 問 AI