VoxCPM2 是清华大学推出的一款新型开源 AI 语音模型,支持 30 种语言的高质量语音克隆与设计,在基准测试中表现优于 ElevenLabs 等商业服务。
📝 详细摘要
此推文介绍了 VoxCPM2,这是针对 ElevenLabs 等付费服务的开源替代方案。该模型由 OpenBMB 和清华大学开发,拥有 20 亿参数,并在 200 万小时的语音数据上进行了训练。其功能包括通过文本描述进行语音设计、基于短片段的高保真克隆以及可控的情绪输出。技术亮点包括 48kHz 录音室级音质、在消费级 GPU(8GB 显存)上实现实时串流,以及支持商业用途的 Apache 2.0 协议。基准测试显示,它在英语、中文和阿拉伯语的语音相似度上均超过了 ElevenLabs。
📊 文章信息
AI 评分:86
来源:Nav Toor(@heynavtoor)
作者:Nav Toor
分类:人工智能
语言:英文
阅读时间:10 分钟
字数:2464
标签: VoxCPM2, 开源 AI, 语音克隆, 清华大学, OpenBMB