今日开源（2026-5-8）：小米发布 OmniVoice，新型扩散语言模型支撑大规模多语言 TTS，语音克隆与音色设计双能力集成

📌 一句话摘要

本文汇总了 2026 年 5 月 8 日发布的 7 个开源 AI 项目，涵盖多语言语音合成、大语言模型、视觉推理、机器人仿真和视频处理等前沿方向。

📝 详细摘要

文章以项目简报形式介绍了当日发布的 7 个重要开源 AI 项目。核心项目包括：小米推出的 OmniVoice，基于扩散语言模型支持 600+ 语言的零样本语音合成与音色设计；智源研究院的 OpenSeek-Mid-v1，以 10.6B 参数和 2T 数据在多项基准上持平或超越 Qwen3-14B；用于视觉推理的 VLM Laser，支持连续隐空间推理；面向机器人学习的仿真框架 GS-Playground，结合 3DGS 渲染与并行物理引擎；扩散 LLM 加速方案 DYNAMIC-DLLM，被 ICLR 2026 接收；以及视频字幕生成的人机协同框架 CHAI。每个项目均附有简要技术描述和项目链接。

💡 主要观点

- 小米发布 OmniVoice，支持 600+ 语言的零样本语音合成。 基于新型扩散语言模型架构，同时具备语音克隆和音色设计能力，推理速度快，是多语言 TTS 领域的重要进展。

智源 OpenSeek-Mid-v1 以更少参数和训练数据达到 Qwen3-14B 水平。 10.6B 参数、2T 全开源数据训练，参数量少 25%、训练数据少 18 倍，体现了高效模型扩展方法的潜力。

多个项目被顶级学术会议接收，反映研究前沿。 GS-Playground 被 RSS 2026 收录，DYNAMIC-DLLM 被 ICLR 2026 接收，表明这些工作在学术界获得认可。

💬 文章金句

- OmniVoice 是先进的大规模多语言零样本语音合成（TTS）模型，支持超 600 种语言，基于新型扩散语言模型架构构建。

OpenSeek-Mid-v1 在参数量较 Qwen3-14B 少 25%、训练数据少 18 倍的情况下，在多个基准测试上持平甚至超越 Qwen3-14B-Base。
Laser 是用于高效视觉推理的视觉语言模型，支持在连续隐空间执行隐式推理，遵循先全局理解再细节处理的逻辑。

📊 文章信息

AI 初评：80

来源：机器之心SOTA模型

作者：机器之心SOTA模型

分类：人工智能

语言：中文

阅读时间：5 分钟

字数：1094

标签：开源项目, OmniVoice, OpenSeek-Mid-v1, Laser, GS-Playground

阅读完整文章

今日开源（2026-5-8）：小米发布 OmniVoice，新型扩散语言模型支撑大规模多语言 TTS，语音克隆与音色设计双能力集成

🤖 問 AI