通义实验室发布 Fun-ASR 1.5 语音识别大模型,实现了方言识别从‘听得清’到‘工业级可用’的突破,单模型覆盖 30 种语言及汉语七大方言体系,并优化了古诗词识别与文本规范化输出。
📝 详细摘要
文章介绍了通义实验室最新发布的 Fun-ASR 1.5 语音识别大模型。该模型标志着方言识别迈入‘工业级可用’时代,基于数十万小时真实方言语音数据训练,单模型即可无缝覆盖 30 种主流语言、汉语七大方言体系及 20 多个地方口音。核心突破包括:方言识别平均字错误率相对下降 56.2%,5 种方言准确率突破 90%;支持跨语种混合对话的精准识别;对古诗词吟诵进行专项优化,字符级准确率达 97%;以及智能标点预测与文本归一化等后处理能力,使输出文本更规范易用。文章提供了模型在阿里云百炼平台的上线信息、API 调用示例及在线体验地址。
💡 主要观点
- 方言识别实现‘工业级可用’,覆盖广度与精度显著提升。 Fun-ASR 1.5 基于超数十万小时真实数据训练,覆盖汉语七大方言及 20+ 地方口音,在典型方言场景下字错误率相对下降 56.2%,已有 5 种方言准确率突破 90%,解决了方言数据稀疏、发音变异大的行业难题。
💬 文章金句
- 方言识别,迈入‘工业级可用’时代。
- 通义实验室正式推出 Fun-ASR1.5,实现了「方言工业级可用」的语音识别大模型。
- 测试显示,典型方言场景字错误率(CER)相对下降 56.2%。目前已有 5 种方言准确率突破 90%,15 种超过 80%。
- Fun-ASR1.5 聚焦‘听得更全、听得更准、输出更规范’三大目标,实现从‘通用转写工具’向‘多语言、多文化理解平台’的关键演进。
- 在内部评测集中,Fun-ASR1.5 对古诗词的字符级准确率达到 97%。
📊 文章信息
AI 初评:88
来源:通义大模型
作者:通义大模型
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2820
标签: 语音识别, 方言识别, 通义实验室, Fun-ASR, 多语言模型