对话 ElevenLabs 联合创始人 Mati Staniszewski,深度拆解语音 AI 从物理模拟到神经网络涌现的技术演进、单季净增 1 亿美元 ARR 的狂飙式增长秘诀,以及 AI 原生公司的扁平化组织与人才观。
📝 详细摘要
本期播客克隆了 Stripe 联合创始人 John Collison 与 AI 音频巨头 ElevenLabs 联合创始人 Mati Staniszewski 的深度对谈。Mati 系统性地阐述了语音大模型的底层技术逻辑,从早期的物理模拟声道,到现代基于神经网络的音素预测与情感涌现。他揭示了 ElevenLabs 如何通过自建数据标注团队解决行业核心难题,并构建了涵盖文本转语音、语音转文本、对话智能体的完整平台。在商业层面,Mati 分享了公司惊人的增长数据:预计 2025 年底 ARR 达 3.5 亿美元,单季度净增 1 亿美元 ARR,其成功源于坚定的自服务(PLG)模式与销售主导的企业级业务双轮驱动。此外,对话深入探讨了 AI 原生公司的组织形态,包括极度扁平化管理(创始人拥有超 15 个直接下属)、在非技术团队配置技术资源,以及将「高主观能动性」视为 AI 时代核心人才标准的前瞻性观点。
💡 主要观点
- 语音 AI 的技术核心是音素预测与上下文情感涌现 现代语音模型已从硬编码参数(如口音、情感)演变为神经网络自主预测下一个音素,并基于上下文(文本、声音参考)让口音、韵律等人类特质自然涌现,这是过去三年才实现的关键突破。
💬 文章金句
- 语音模型要真正达到像现在这样好听的程度,其实也就是过去三年的事情。
- 我希望在未来一年左右的时间里,我们能让所有对话智能体都通过图灵测试。
- 在你尝试之前,如果摩擦因素越多,你就越不信任它……把最好的技术提供给每一个人,这非常有吸引力。
- 我觉得具备高主观能动性的人会是人工智能进步的赢家;而在组织内部,缺乏主观能动性的人会被淘汰。
- 实际上乌克兰的每个政府部门都有技术资源在负责把工作智能体化。
📊 文章信息
AI 初评:89
来源:跨国串门儿计划
作者:跨国串门儿计划
分类:人工智能
语言:中文
阅读时间:82 分钟
字数:20271
标签: 语音 AI, ElevenLabs, 文本转语音, 语音智能体, AI 创业