2 秒钟转写 5 分钟音频！国产新语音模型拿下多项 SOTA，定价骤减 90%

📌 一句话摘要

阶跃星辰发布 StepAudio 2.5 ASR 语音识别模型，通过 Multi-Token Prediction 技术实现推理速度提升 400%、成本下降 80%，定价仅为 0.15 元/小时，但在实测中部分音频上传场景识别失败。

📝 详细摘要

本文报道了阶跃星辰于 2026 年 4 月 24 日发布的新一代自动语音识别模型 StepAudio 2.5 ASR。该模型的核心创新在于将 Multi-Token Prediction（多 Token 预测）技术引入语音识别领域，打破了传统串行输出的限制，实现了单次预判多组候选 Token 并并行验证。官方数据显示，其推理速度提升约 400%，时延降低 60%，峰值推理速率达 500 tokens/s，成本下降 80%。模型支持最长 30 分钟音频的一次性完整转写，无需分段切割，并复用了 LLM 原生 32K 上下文窗口能力。定价方面，StepAudio 2.5 ASR 为 0.15 元/小时，仅为上代产品的十分之一。文章还包含了作者的实测体验：在实时录音场景下，模型转写准确度较高，能较好还原口语特征；但在上传特定音频文件时，系统提示未检测到清晰语音，未能完成转写。文章最后指出，模型在关键指标上提升显著，但真实场景下的稳定性仍有待验证。

💡 主要观点

- StepAudio 2.5 ASR 引入 Multi-Token Prediction 技术，大幅提升推理效率。 该模型采用 Audio Encoder+Linear Adapter+LLM+MTP-5 融合架构，可单次预判多组候选 Token 并并行验证，推理速度提升约 400%，时延降低 60%，成本下降 80%。

模型支持端到端处理最长 30 分钟连续音频，无需分段切割。 通过复用 LLM 原生 32K 上下文窗口能力，模型能全程保留完整上下文关联，解决了传统方案中音频切片导致的语义断层问题，在长音频场景下识别连贯性显著提升。

定价大幅降低至 0.15 元/小时，仅为上代产品的十分之一。 极低的定价使得该模型在会议纪要、采访录音转写、课程归档等场景中具有极高的性价比，有望推动语音识别服务的普及。

实测显示模型在不同音频输入条件下的稳定性存在差异。 在实时录音场景下转写准确度较高，但上传特定音频文件时系统提示未检测到清晰语音，未能完成转写，说明模型在复杂或非标准音频的适配能力上仍有提升空间。

💬 文章金句

- 推理速度提升约 400%、时延降低 60%、成本下降 80%。

StepAudio 2.5 ASR 为 0.15 元/小时，仅为上代 Step ASR 2 的 1/10。
StepAudio 2.5 ASR 将 Multi-Token Prediction 技术引入语音识别赛道，沿用 Step 3.5 Flash 同款技术方案。
支持端到端一次性处理最长 30 分钟的连续音频，无需分段切割，全程保留完整上下文关联。
未出现长文本识别常见的精度逐级衰减问题，长时序内容识别稳定性显著提升。

📊 文章信息

AI 初评：82

来源：智东西

作者：智东西

分类：人工智能

语言：中文

阅读时间：8 分钟

字数：1824

标签：阶跃星辰, StepAudio, 语音识别, ASR, Multi-Token Prediction

阅读完整文章

2 秒钟转写 5 分钟音频！国产新语音模型拿下多项 SOTA，定价骤减 90%

🤖 問 AI