阶跃星辰发布 StepAudio 2.5 ASR 语音识别模型,通过 Multi-Token Prediction 技术实现推理速度提升 400%、成本下降 80%,定价仅为 0.15 元/小时,但在实测中部分音频上传场景识别失败。
📝 详细摘要
本文报道了阶跃星辰于 2026 年 4 月 24 日发布的新一代自动语音识别模型 StepAudio 2.5 ASR。该模型的核心创新在于将 Multi-Token Prediction(多 Token 预测)技术引入语音识别领域,打破了传统串行输出的限制,实现了单次预判多组候选 Token 并并行验证。官方数据显示,其推理速度提升约 400%,时延降低 60%,峰值推理速率达 500 tokens/s,成本下降 80%。模型支持最长 30 分钟音频的一次性完整转写,无需分段切割,并复用了 LLM 原生 32K 上下文窗口能力。定价方面,StepAudio 2.5 ASR 为 0.15 元/小时,仅为上代产品的十分之一。文章还包含了作者的实测体验:在实时录音场景下,模型转写准确度较高,能较好还原口语特征;但在上传特定音频文件时,系统提示未检测到清晰语音,未能完成转写。文章最后指出,模型在关键指标上提升显著,但真实场景下的稳定性仍有待验证。
💡 主要观点
- StepAudio 2.5 ASR 引入 Multi-Token Prediction 技术,大幅提升推理效率。 该模型采用 Audio Encoder+Linear Adapter+LLM+MTP-5 融合架构,可单次预判多组候选 Token 并并行验证,推理速度提升约 400%,时延降低 60%,成本下降 80%。
💬 文章金句
- 推理速度提升约 400%、时延降低 60%、成本下降 80%。
- StepAudio 2.5 ASR 为 0.15 元/小时,仅为上代 Step ASR 2 的 1/10。
- StepAudio 2.5 ASR 将 Multi-Token Prediction 技术引入语音识别赛道,沿用 Step 3.5 Flash 同款技术方案。
- 支持端到端一次性处理最长 30 分钟的连续音频,无需分段切割,全程保留完整上下文关联。
- 未出现长文本识别常见的精度逐级衰减问题,长时序内容识别稳定性显著提升。
📊 文章信息
AI 初评:82
来源:智东西
作者:智东西
分类:人工智能
语言:中文
阅读时间:8 分钟
字数:1824
标签: 阶跃星辰, StepAudio, 语音识别, ASR, Multi-Token Prediction