← 回總覽

2 秒钟转写 5 分钟音频!国产新语音模型拿下多项 SOTA,定价骤减 90%

📅 2026-04-24 19:59 智东西 人工智能 2 分鐘 1618 字 評分: 82
阶跃星辰 StepAudio 语音识别 ASR Multi-Token Prediction
📌 一句话摘要 阶跃星辰发布 StepAudio 2.5 ASR 语音识别模型,通过 Multi-Token Prediction 技术实现推理速度提升 400%、成本下降 80%,定价仅为 0.15 元/小时,但在实测中部分音频上传场景识别失败。 📝 详细摘要 本文报道了阶跃星辰于 2026 年 4 月 24 日发布的新一代自动语音识别模型 StepAudio 2.5 ASR。该模型的核心创新在于将 Multi-Token Prediction(多 Token 预测)技术引入语音识别领域,打破了传统串行输出的限制,实现了单次预判多组候选 Token 并并行验证。官方数据显示,其推理速度提

📌 一句话摘要

阶跃星辰发布 StepAudio 2.5 ASR 语音识别模型,通过 Multi-Token Prediction 技术实现推理速度提升 400%、成本下降 80%,定价仅为 0.15 元/小时,但在实测中部分音频上传场景识别失败。

📝 详细摘要

本文报道了阶跃星辰于 2026 年 4 月 24 日发布的新一代自动语音识别模型 StepAudio 2.5 ASR。该模型的核心创新在于将 Multi-Token Prediction(多 Token 预测)技术引入语音识别领域,打破了传统串行输出的限制,实现了单次预判多组候选 Token 并并行验证。官方数据显示,其推理速度提升约 400%,时延降低 60%,峰值推理速率达 500 tokens/s,成本下降 80%。模型支持最长 30 分钟音频的一次性完整转写,无需分段切割,并复用了 LLM 原生 32K 上下文窗口能力。定价方面,StepAudio 2.5 ASR 为 0.15 元/小时,仅为上代产品的十分之一。文章还包含了作者的实测体验:在实时录音场景下,模型转写准确度较高,能较好还原口语特征;但在上传特定音频文件时,系统提示未检测到清晰语音,未能完成转写。文章最后指出,模型在关键指标上提升显著,但真实场景下的稳定性仍有待验证。

💡 主要观点

- StepAudio 2.5 ASR 引入 Multi-Token Prediction 技术,大幅提升推理效率。 该模型采用 Audio Encoder+Linear Adapter+LLM+MTP-5 融合架构,可单次预判多组候选 Token 并并行验证,推理速度提升约 400%,时延降低 60%,成本下降 80%。

模型支持端到端处理最长 30 分钟连续音频,无需分段切割。 通过复用 LLM 原生 32K 上下文窗口能力,模型能全程保留完整上下文关联,解决了传统方案中音频切片导致的语义断层问题,在长音频场景下识别连贯性显著提升。
定价大幅降低至 0.15 元/小时,仅为上代产品的十分之一。 极低的定价使得该模型在会议纪要、采访录音转写、课程归档等场景中具有极高的性价比,有望推动语音识别服务的普及。
实测显示模型在不同音频输入条件下的稳定性存在差异。 在实时录音场景下转写准确度较高,但上传特定音频文件时系统提示未检测到清晰语音,未能完成转写,说明模型在复杂或非标准音频的适配能力上仍有提升空间。

💬 文章金句

- 推理速度提升约 400%、时延降低 60%、成本下降 80%。

  • StepAudio 2.5 ASR 为 0.15 元/小时,仅为上代 Step ASR 2 的 1/10。
  • StepAudio 2.5 ASR 将 Multi-Token Prediction 技术引入语音识别赛道,沿用 Step 3.5 Flash 同款技术方案。
  • 支持端到端一次性处理最长 30 分钟的连续音频,无需分段切割,全程保留完整上下文关联。
  • 未出现长文本识别常见的精度逐级衰减问题,长时序内容识别稳定性显著提升。

📊 文章信息

AI 初评:82

来源:智东西

作者:智东西

分类:人工智能

语言:中文

阅读时间:8 分钟

字数:1824

标签: 阶跃星辰, StepAudio, 语音识别, ASR, Multi-Token Prediction

阅读完整文章

查看原文 → 發佈: 2026-04-24 19:59:00 收錄: 2026-04-25 00:00:54

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。