做好字幕 SRT 的关键：断句、AI 辅助与中文处理技巧

📌 一句话摘要

宝玉分享了利用 AI 和 Agent 制作高质量字幕 SRT 的实践经验，重点对比了中英文断句的差异，并推荐了 WhisperKit 等工具。

📝 详细摘要

这条推文是宝玉对 @jianshuo 关于 Whisper API 生成 SRT 质量不佳推文的深度回应和补充。宝玉指出，做好字幕 SRT 的核心在于断句和纠正拼写错误，这可以借助 AI 或 Agent 完成。他详细解释了关键前提是生成单词级别的时间戳，并对比了中英文断句的难度差异：英文通过标点符号即可，而中文因 Whisper 输出无标点且「word」为多字组合，需要借助大模型断句加标点，再通过复杂算法重新对齐时间戳。他还提到了处理长音频时的分块策略，并推荐了支持 word-level timestamp 和说话人识别的 Mac 工具 WhisperKit。整条推文提供了从原理到实践、从工具到算法的完整技术方案，对从事音视频处理、AI 应用开发的工程师具有很高的实用价值。

📊 文章信息

AI 初评：88

来源：宝玉(@dotey)

作者：宝玉

分类：人工智能

语言：中文

阅读时间：2 分钟

字数：491

标签： Whisper, SRT, 字幕生成, AI 编程, WhisperKit

阅读推文

做好字幕 SRT 的关键：断句、AI 辅助与中文处理技巧

🤖 問 AI