← 回總覽

敢不敢用家乡话测试这个 AI?

📅 2026-04-20 14:02 通义大模型 人工智能 2 分鐘 1303 字 評分: 88
语音识别 方言识别 通义实验室 Fun-ASR 多语言模型
📌 一句话摘要 通义实验室发布 Fun-ASR 1.5 语音识别大模型,实现了方言识别从‘听得清’到‘工业级可用’的突破,单模型覆盖 30 种语言及汉语七大方言体系,并优化了古诗词识别与文本规范化输出。 📝 详细摘要 文章介绍了通义实验室最新发布的 Fun-ASR 1.5 语音识别大模型。该模型标志着方言识别迈入‘工业级可用’时代,基于数十万小时真实方言语音数据训练,单模型即可无缝覆盖 30 种主流语言、汉语七大方言体系及 20 多个地方口音。核心突破包括:方言识别平均字错误率相对下降 56.2%,5 种方言准确率突破 90%;支持跨语种混合对话的精准识别;对古诗词吟诵进行专项优化,字符级

📌 一句话摘要

通义实验室发布 Fun-ASR 1.5 语音识别大模型,实现了方言识别从‘听得清’到‘工业级可用’的突破,单模型覆盖 30 种语言及汉语七大方言体系,并优化了古诗词识别与文本规范化输出。

📝 详细摘要

文章介绍了通义实验室最新发布的 Fun-ASR 1.5 语音识别大模型。该模型标志着方言识别迈入‘工业级可用’时代,基于数十万小时真实方言语音数据训练,单模型即可无缝覆盖 30 种主流语言、汉语七大方言体系及 20 多个地方口音。核心突破包括:方言识别平均字错误率相对下降 56.2%,5 种方言准确率突破 90%;支持跨语种混合对话的精准识别;对古诗词吟诵进行专项优化,字符级准确率达 97%;以及智能标点预测与文本归一化等后处理能力,使输出文本更规范易用。文章提供了模型在阿里云百炼平台的上线信息、API 调用示例及在线体验地址。

💡 主要观点

- 方言识别实现‘工业级可用’,覆盖广度与精度显著提升。 Fun-ASR 1.5 基于超数十万小时真实数据训练,覆盖汉语七大方言及 20+ 地方口音,在典型方言场景下字错误率相对下降 56.2%,已有 5 种方言准确率突破 90%,解决了方言数据稀疏、发音变异大的行业难题。

单模型统一架构支持 30 种语言及跨语种混合识别。 模型支持中、英、日、韩等 30 种主流语言的精准识别,并在混合语种对话场景下表现突出,无需预设语种标签即可准确转写,有效降低了跨国协作与多语种内容生产的沟通成本。
专项优化古诗词识别与文本后处理,拓展文化传承与实用场景。 针对古诗词文言语法、押韵、吟咏等特点构建专用语料库,识别准确率达 97%。同时优化了智能标点预测和文本归一化,使转写结果更接近书面规范,适用于会议纪要、新闻采访等高要求场景。

💬 文章金句

- 方言识别,迈入‘工业级可用’时代。

  • 通义实验室正式推出 Fun-ASR1.5,实现了「方言工业级可用」的语音识别大模型。
  • 测试显示,典型方言场景字错误率(CER)相对下降 56.2%。目前已有 5 种方言准确率突破 90%,15 种超过 80%。
  • Fun-ASR1.5 聚焦‘听得更全、听得更准、输出更规范’三大目标,实现从‘通用转写工具’向‘多语言、多文化理解平台’的关键演进。
  • 在内部评测集中,Fun-ASR1.5 对古诗词的字符级准确率达到 97%。

📊 文章信息

AI 初评:88

来源:通义大模型

作者:通义大模型

分类:人工智能

语言:中文

阅读时间:12 分钟

字数:2820

标签: 语音识别, 方言识别, 通义实验室, Fun-ASR, 多语言模型

阅读完整文章

查看原文 → 發佈: 2026-04-20 14:02:00 收錄: 2026-04-20 22:01:07

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。