← 回總覽

今日开源(2026-5-8):小米发布 OmniVoice,新型扩散语言模型支撑大规模多语言 TTS,语音克隆与音色设计双能力集成

📅 2026-05-08 18:30 机器之心SOTA模型 人工智能 2 分鐘 1329 字 評分: 80
开源项目 OmniVoice OpenSeek-Mid-v1 Laser GS-Playground
📌 一句话摘要 本文汇总了 2026 年 5 月 8 日发布的 7 个开源 AI 项目,涵盖多语言语音合成、大语言模型、视觉推理、机器人仿真和视频处理等前沿方向。 📝 详细摘要 文章以项目简报形式介绍了当日发布的 7 个重要开源 AI 项目。核心项目包括:小米推出的 OmniVoice,基于扩散语言模型支持 600+ 语言的零样本语音合成与音色设计;智源研究院的 OpenSeek-Mid-v1,以 10.6B 参数和 2T 数据在多项基准上持平或超越 Qwen3-14B;用于视觉推理的 VLM Laser,支持连续隐空间推理;面向机器人学习的仿真框架 GS-Playground,结合 3D

📌 一句话摘要

本文汇总了 2026 年 5 月 8 日发布的 7 个开源 AI 项目,涵盖多语言语音合成、大语言模型、视觉推理、机器人仿真和视频处理等前沿方向。

📝 详细摘要

文章以项目简报形式介绍了当日发布的 7 个重要开源 AI 项目。核心项目包括:小米推出的 OmniVoice,基于扩散语言模型支持 600+ 语言的零样本语音合成与音色设计;智源研究院的 OpenSeek-Mid-v1,以 10.6B 参数和 2T 数据在多项基准上持平或超越 Qwen3-14B;用于视觉推理的 VLM Laser,支持连续隐空间推理;面向机器人学习的仿真框架 GS-Playground,结合 3DGS 渲染与并行物理引擎;扩散 LLM 加速方案 DYNAMIC-DLLM,被 ICLR 2026 接收;以及视频字幕生成的人机协同框架 CHAI。每个项目均附有简要技术描述和项目链接。

💡 主要观点

- 小米发布 OmniVoice,支持 600+ 语言的零样本语音合成。 基于新型扩散语言模型架构,同时具备语音克隆和音色设计能力,推理速度快,是多语言 TTS 领域的重要进展。

智源 OpenSeek-Mid-v1 以更少参数和训练数据达到 Qwen3-14B 水平。 10.6B 参数、2T 全开源数据训练,参数量少 25%、训练数据少 18 倍,体现了高效模型扩展方法的潜力。
多个项目被顶级学术会议接收,反映研究前沿。 GS-Playground 被 RSS 2026 收录,DYNAMIC-DLLM 被 ICLR 2026 接收,表明这些工作在学术界获得认可。

💬 文章金句

- OmniVoice 是先进的大规模多语言零样本语音合成(TTS)模型,支持超 600 种语言,基于新型扩散语言模型架构构建。

  • OpenSeek-Mid-v1 在参数量较 Qwen3-14B 少 25%、训练数据少 18 倍的情况下,在多个基准测试上持平甚至超越 Qwen3-14B-Base。
  • Laser 是用于高效视觉推理的视觉语言模型,支持在连续隐空间执行隐式推理,遵循先全局理解再细节处理的逻辑。

📊 文章信息

AI 初评:80

来源:机器之心SOTA模型

作者:机器之心SOTA模型

分类:人工智能

语言:中文

阅读时间:5 分钟

字数:1094

标签: 开源项目, OmniVoice, OpenSeek-Mid-v1, Laser, GS-Playground

阅读完整文章

查看原文 → 發佈: 2026-05-08 18:30:00 收錄: 2026-05-09 00:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。