敢不敢用家乡话测试这个 AI？

📌 一句话摘要

通义实验室发布 Fun-ASR 1.5 语音识别大模型，实现了方言识别从‘听得清’到‘工业级可用’的突破，单模型覆盖 30 种语言及汉语七大方言体系，并优化了古诗词识别与文本规范化输出。

📝 详细摘要

文章介绍了通义实验室最新发布的 Fun-ASR 1.5 语音识别大模型。该模型标志着方言识别迈入‘工业级可用’时代，基于数十万小时真实方言语音数据训练，单模型即可无缝覆盖 30 种主流语言、汉语七大方言体系及 20 多个地方口音。核心突破包括：方言识别平均字错误率相对下降 56.2%，5 种方言准确率突破 90%；支持跨语种混合对话的精准识别；对古诗词吟诵进行专项优化，字符级准确率达 97%；以及智能标点预测与文本归一化等后处理能力，使输出文本更规范易用。文章提供了模型在阿里云百炼平台的上线信息、API 调用示例及在线体验地址。

💡 主要观点

- 方言识别实现‘工业级可用’，覆盖广度与精度显著提升。 Fun-ASR 1.5 基于超数十万小时真实数据训练，覆盖汉语七大方言及 20+ 地方口音，在典型方言场景下字错误率相对下降 56.2%，已有 5 种方言准确率突破 90%，解决了方言数据稀疏、发音变异大的行业难题。

单模型统一架构支持 30 种语言及跨语种混合识别。 模型支持中、英、日、韩等 30 种主流语言的精准识别，并在混合语种对话场景下表现突出，无需预设语种标签即可准确转写，有效降低了跨国协作与多语种内容生产的沟通成本。

专项优化古诗词识别与文本后处理，拓展文化传承与实用场景。 针对古诗词文言语法、押韵、吟咏等特点构建专用语料库，识别准确率达 97%。同时优化了智能标点预测和文本归一化，使转写结果更接近书面规范，适用于会议纪要、新闻采访等高要求场景。

💬 文章金句

- 方言识别，迈入‘工业级可用’时代。

通义实验室正式推出 Fun-ASR1.5，实现了「方言工业级可用」的语音识别大模型。
测试显示，典型方言场景字错误率（CER）相对下降 56.2%。目前已有 5 种方言准确率突破 90%，15 种超过 80%。
Fun-ASR1.5 聚焦‘听得更全、听得更准、输出更规范’三大目标，实现从‘通用转写工具’向‘多语言、多文化理解平台’的关键演进。
在内部评测集中，Fun-ASR1.5 对古诗词的字符级准确率达到 97%。

📊 文章信息

AI 初评：88

来源：通义大模型

作者：通义大模型

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2820

标签：语音识别, 方言识别, 通义实验室, Fun-ASR, 多语言模型

阅读完整文章

敢不敢用家乡话测试这个 AI？

🤖 問 AI