Title: 对话 ACE Studio:做 AI 音乐、月收入 200 万美元,我们选了一条和 Suno 截然不同的路 | BestBlogs.dev
URL Source: https://www.bestblogs.dev/article/bd7d6bfa
Published Time: 2026-03-11 10:51:00
Markdown Content: Founder Park 2026-03-11 18:51 北京
AI 音乐,是最接近可直接消费的 AI 生成内容。
> 内容转载 自播客节目「Alphaist Partners」。Alphaist Partners 关注 AI、机器人和硬件领域的早期创业者。
过去一年,AI 音乐可能是生成式 AI 领域最出圈的 ToC 应用赛道之一。Suno 刚刚完成了 2.5 亿美金的融资,年化收入超过 2 亿美金,吸引了千万级用户。
与 Suno 不同的是,AI 音乐平台 ACE Studio 选择了一条截然不同的路径,从制作人、电影配乐者等专业用户切入 AI 音乐市场,帮助他们更快速地把 idea 变成 release ready 的作品。
不到一年的时间,ACE Studio 实现了超千万美元的 ARR。25 年 12 月初,2.0 版本上线,3 个月时间月收入翻了三倍,达到 200 万美元。
近期,Alphaist Partners 合伙人 陈哲(Peter)对话了 ACE 的创始人 Joe(郭靖),聊了聊 7 年艰难创业经历、如何在 Suno 这座「大山」的存在下成功打入 AI 音乐市场,以及他对于 AI 音乐的一些思考。
为了方便阅读,Founder Park 对原对话内容进行了适当调整。
⬆️关注 Founder Park,最及时最干货的创业分享 *
超 22000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
邀请从业者、开发人员和创业者,飞书扫码加群:
进群后,你有机会得到:
* 最新、最值得关注的 AI 新品资讯;
* 不定期赠送热门新品的邀请码、会员码;
* 最精准的 AI 产品曝光渠道 * 01 ------ ACE Studio, --------------- 更像是音乐人的「Cursor」 ------------------- Peter:ACE Studio 跟 Suno 最大的区别是什么? Joe:大家如果关注 AI 可能会想,Cursor 跟 Lovart 的区别是什么?Lovart 更偏向于一句话让你一键生成你想要的项目,Cursor 更多的是一个 human in the loop 的 IDE,只不过被 AI 加持了。今天的 ACE Studio 更像是 Cursor——完全基于 AI 的新能力,重新创造工作流、重新塑形创作环境的音乐人的 IDE。而 Suno 更偏向于一键生成的 model as a product,用户输入一个 prompt 就生成一首音乐,门槛很低,但很难编辑。
我们跟 Suno 正好反过来——先从 professionals 切入,用更好的对音乐创作工作流的理解去打造更好的模型、更好的专家反馈,再赋能 consumer 端。我们的模型也比 Suno 更轻、更快,可以在 3090 上几秒钟就能生成一首完整歌曲。今天世界上所有的 AI 音乐模型,开源和闭源的,都做不到我们这样的速度,或者在同样速度下有我们这样的 quality。 Peter:在专业级市场,ACE Studio 发布之前其实并没有什么竞争对手? Joe:对,用 AI 的方式重塑专业音乐创作的工作流,这件事几乎是我们首创的,目前也是我们比较领先的。 Peter:AI 在打破专业和非专业用户之间的壁垒上,有哪些例子? Joe:国内有一个非常有名的头部音乐教育机构在用我们来教学。他的一个徒弟是三线城市的音乐老师,开了一个两个月的培训班让小朋友学会写 prompt、生成歌曲。结果很神奇——他教的初中、高中小朋友在两个月内创作出非常有趣的歌曲。然后一个震撼的事情发生了——他把其中一些比较好的作品代理到版权公司放到流媒体平台,其中一首歌在 QQ 音乐上连续好几周是 number one,最终版权分成接近 500 万人民币。
你可以想象这个震撼的程度——一个高中小朋友跟妈妈说给我报个兴趣班,399 块钱,学了两个月后拿了 500 万人民币回家。这个信号已经非常强烈。一部分人还在怀疑 AI 是不是有灵魂,但另一部分 underdog 已经在用 AI 做的音乐系统性地赚到很大的钱了。
这让我们看到 AI 音乐可能甚至是一个大于音乐本身的事情,因为它会彻底让人类几千年来都长期需要的内容模式真正实现普惠化。音乐是一个很独特的东西,代表人类情绪的延伸。所有人都有情绪,每个人的情绪都不一样,但不是所有人都有能力用音乐去表达。今天主流的现象是人们在别人的音乐上 echo 自己的情绪,用别人的歌作为情绪抒发的代餐。如果能真的让你用自己的音乐去表达自己的情绪,是不是一个 ten times better 的事情?是不是一个更大的市场? Peter:做一款专业工具,最大的门槛或者困难点是什么? Joe:我们会发现一个很有趣的现象——如果你做 C 端产品,想象一下今天抖音把所有功能都干掉,没有本地生活、没有加好友、没有点赞评论,只有上下滑和推荐算法,抖音可能短时间内 DAU 都不会下降,因为对于 C 端产品,主 use case 占用户 90% 以上的注意力和价值。
但专业产品正好反过来。专业产品要尽可能覆盖更多的 corner case,又 somehow 整合在一个优雅的工作流里,这需要你对专业人士创作的工作流有非常深刻的理解。比如我们跟 Suno Studio 有一个巨大区别——Suno Studio 是网页版产品,因为它从 consumer 做起,天然想法是 producer 端也整合在 webapp 里。但网页端产品有很多需求对专业用户来讲是满足不了的,比如插件。专业创作者需要连接到自己的 workstation 里面,这个插件很难用网页端实现。而 ACE Studio 虽然自己是独立的 IDE,但同时也做了插件,可以桥接到传统音乐创作者的 workstation 里面,让他们可以无缝接入到已有 workflow 中。
在模型能力上,Suno 偏向于全部都是 end to end 的 generative model,我们也有一套 end to end generative 的 model 跟 Suno 能力不相上下。但同时我们有很多专家模型——可以输入音符输出高质量的歌声,输入音符输出高质量的乐器。音符的语言是专业用户经常 speak 的语言,专业用户最大的需求在于精准表达自己的想法。
不仅仅是质量问题。今天大家能看到 AI 生成的音乐在质量上对普通人来讲已经跟专业人士做出来的没有区别了,但为什么今天 Suno 或者所有 AI 生成的音乐在互联网上还没有打造出一个超级明星、一个创作者为中心的 IP?因为 AI 是一个相对黑盒的随机事件,即使一个创作者把歌曲做好了,他如何保持自己独特的个性化、独特的风格是很难的。 02 ------ AI 音乐, ---------- 是最接近可直接消费的 AI 生成内容 ---------------------- Peter:ACE Studio 作为专业级工具,对音乐的基础单元——音符有完整的控制和创作能力,本质上也是一种 human in the loop 的创作方法? Joe:对。音符之于代码确实是音乐底层逻辑和技术世界底层逻辑的对应。我觉得未来音乐创作的颗粒度即使在专业工具之内也会逐渐提升。为什么内容持续有 human in the loop 的价值?因为内容没有标准答案,没有 verifiable 的 reward。你喜欢什么、我喜欢什么,这很难通过确定一个目标来解决。比如摇滚乐刚被发明的时候,什么 AI 可以帮助发明摇滚乐这样伟大的划时代的音乐类型?没有任何 AI 能做到,因为类型被发明之前训练数据里没有这个类型,AI 无法学习。而一个类型刚被发明出来的时候,用户对它的评价也是褒贬不一、有巨大争议的,所以强化学习也没办法在早期奖励一个真正革命性的发明。
End to end 的 AI approach 可以很好地让人 involve 到内容创作里边,但很难帮助人真正探索出划时代的、改变人类的内容形式。所以长期来讲 end to end 跟 human in the loop 是结合的——end to end 可以快速让人进入创作的心流,当所有人都能几秒钟上手、创作质量都差不多的时候,竞争的维度就变成谁能够更可控地创造出自己想要表达的精确 idea、精确感觉,而不仅仅是比质量。 Peter:所以,更独特的、更有创造力的内容一直是被奖励和传播的。 Joe:对。拿照相机来举例——照相机出现之前,画师最大的价值是把人画得更真实。但照相机出来后,人们开始思考绘画到底是什么、艺术到底是什么,开始出现现代主义、抽象主义。 Peter:你前边提到,AI 音乐不只是效率工具升级,甚至有可能大于音乐本身。AI 音乐市场到底有多大? Joe:这件事今天没办法算清楚,只能有一些定性判断。当 AI 视频出现时,所有人的想象都是每个人都可以做自己的电影——如果每个人能创造自己的电影,这个市场远大于电影行业本身。但问题在于今天 AI video 离普通人可以消费的电影还有很大距离,因为电影有太多元素——镜头节奏、表演、剧情设计。
但你会发现今天 AI 音乐好像是最接近 AI 直出的内容能够直接让终端消费者消费的。今天 AI 音乐的问题反而不是没有供给,而是消费端的平台在打压这样的供给——因为跟传统既得利益产生了冲突。腾讯音乐也好、Spotify 也好,你上传 AI 音乐它对你是歧视的,会贴上 AI 生成的标签。但这个势头已经挡不住了,AI 出来的大量作品已经超过人类的效果,能够批量产生 hit song、过亿播放。 Peter:从终端消费者角度,大家并不在乎它是不是 AI 生成的? Joe:对,消费者 always 是不在乎的。一个普通人去听 AI 音乐平台的 playlist,你很难区别它到底是 AI 的还是人类的。大家可以想想看这件事有多可怕——AI 直出的内容已经能直接让消费者消费了,哪个领域今天接近这一点? 03 ------ 自建专家模型矩阵, ------------- 不止一个模型 ---------- Peter:Studio 2.0 发布三个月,你观察的用户是怎么使用和拥抱新一代产品的? Joe:随着我们给用户在 Studio 2.0 里面开放的不同模型能力的多样性和质量提升,形成了一种明显的涌现感——每一个能力是一个原子,用户在这些原子中排列组合会产生出很多连我们自己都意想不到的 workflow。比如有人通过自己哼唱一个 idea,获得大概的想法,然后通过我们的 vocal to MIDI 模型把哼唱变成乐谱,再把乐谱通过 AI instrument 变成小提琴的声音,再通过 music enhancer 把音乐 idea 直接生成出品级的完整歌曲——整个 workflow 全部在 ACE Studio 里面完成。做出了好莱坞史诗级的弦乐配乐作品。
今天没有一个 AI 工具能独立达到这样的效果。这里面不乏好莱坞的音乐制作人、格莱美获奖者这些行业顶端的人,他们也在用这样的 workflow。 Peter:在模型能力方面展开介绍下?其他通用大模型公司有办法复现或超越你们的模型能力吗? Joe:首先我们不止一个模型。刚才的 workflow 里就有旋律识别模型、乐器合成模型、基于音频 prompt 的端到端音乐生成模型,还有跟 Suno 类似的输入 prompt 直接生成音乐的模型、音频分轨的模型、对音乐进行续写或在下面加一个轨道的 stem generation 模型。
所有这些模型,理论上在一个产品公司里我们不应该自己 train,但音乐领域第三方或开源模型很少,所以反而倒逼我们做成了自己 train 模型、自己拥有模型壁垒的产品公司,这是我们比较独特的地方。大厂如果想做这件事,需要沉下心来在音乐产业里不断理解和思考用户需求,不断构建每一个专有模型,这些模型可能都需要专有的数据、专有的标注,是一个极耗时的成本。目前完全没有可见的路径是大模型会内生地长出音乐创作能力,仍然需要调用外部的音乐创作模型。 Peter:训练自己一系列专用模型需要什么样的数据? Joe:千差万别。比如我们的歌声模型,数据就是在录音棚里精致采集的专业歌手的录音级数据,由专业音乐家去标注,量级可能也就 1 万小时左右。而端到端的音乐生成模型,可能就会用到上百万小时甚至更多的完整音乐数据。我们通过版权公司买到音乐授权,加上开源社区捐赠的数据,通过内部的合成数据生成管线再排列组合,最终达到了两三千万首、一两百万小时的数据集。
我们是用 Audio LLM 做预标注,然后用人来清洗数据、调出更精的标注,再去强化学习这个 Audio LLM 让它更精准。那么问题来了——今天如果给你听一段音乐,上面有个描述说"这是一个典型的 drum and bass 风格的律动",普通人你是否能判断这个标注是正确还是错误的?如果对一个没有音乐 knowhow 的团队来做这件事,就相当于瞎子在做图片生成的模型,很难评估。 04 ------ Flux 式商业模式: --------------- 免费是漏斗,闭源是变现 --------------- Peter:2.0 产品发布以来,你们在用户群跟用户画像上有什么变化? Joe:ACE Music 是 for consumer 的,ACE Studio 是 for professional 的,但即使在 ACE Studio 上,我们发现引入更多端到端音乐生成模型后,"professional"的定义发生了一种弥散效果。原先我们认为的 professional 是 music producer——这些人可以启动制作软件,有各种硬核设备。但音乐制作人和懂音乐的人之间还有巨大的人数 gap。比如音乐老师,全中国几千万的琴童,学琴、学唱歌、会弹吉他、业余时间玩乐队,这些人我们理解都是今天的 new professionals,但他们并不都是 music producer。
在 ACE Studio 2.0 上我们看到大量这些跟音乐相关的人——他们懂一些音乐,会弹钢琴,也把自己当做 new professionals,已经在认真创作音乐了。比如有一个在马来西亚的用户,他用 ACE Studio 做的歌已经在跟刘德华的电影合作了,但他之前不是音乐制作人,也不会用传统制作软件,他只是一个从小喜欢唱歌、会弹琴、有很好音乐审美的人,就用 ACE Studio 做出了非常专业的作品。所以即使"专业"这个定义在 AI 加持下也在发生变化——当更轻的门槛和更强大的能力出现时,哪些人是专业人士这个定义本身也在变化。 Peter:ACE Music 作为市场后进者,怎么跟 Suno 竞争? Joe:很多 Suno-like 的产品其实很难杀出血路。因为 Suno 有全世界最好的模型,你的模型接近但差一点点,这很难构建增长——用户花一份钱,有更好的为什么要用差一点的?所以我想了很久。
短期的答案是开源和免费。Suno 今天是云端自持的封闭生态,没有第三方 API。如果跟用户说"我们有个类似 Suno 的产品,模型比他差一点但便宜",用户不会感兴趣。但如果说"我们有一个跟 Suno 差不多的模型,完全免费,且你可以下载到自己电脑上在本地运行和训练,用自己的音乐把模型训练成你想要的样子和审美"——这是一个巨大的卖点。所以我们把模型做得极快,在一张 3090 GPU 上 11 秒可以生成一首完整的音乐,在 A100 上两秒就可以。端侧的运行和训练成为了可能性,这是我们短期去跟 Suno 竞争、撕开口子的手段。
但长期来讲开源只是手段,真正在战略上有可能让我们取胜的不是开源,而是开放生态。这就是为什么我说 ACE 是全球首个开放生态的 AI 音乐平台——我们应该不遗余力地利用这个世界上现存的所有音乐相关模型:我们自己的开源模型、别的开源模型、甚至闭源但可以提供 API 的音乐模型。比如 OpenAI 在做 AI 音乐模型,ElevenLabs 已经做了,千问也在做,MiniMax 的音乐模型效果也非常好。
Suno 一直在走封闭生态的路线,它跟版权公司的和解造成了平台上只允许它自己的模型存在。但你看任何一个领域,哪怕是资源集中度大到像大语言模型这样的领域,今天都已经出现了百花齐放的趋势——开源跟闭源很接近,不同厂商的模型各有千秋,在此之上构建 agent 的产品才能受到系统性赋能。我们想做的事情完全一样:我们相信所有音乐模型加在一起肯定能打败 Suno。 Peter:过去两三年在 Studio 产品上的工作,对今天推出 Music 有什么直接帮助? Joe:因为我们先从专业用户切入,专业用户在创作过程中给了很多对模型、对音乐质量的反馈和洞见。就像 Midjourney 在强化学习过程中有一个 300 人的顶端 artist 用户池,只用这些人的反馈来进行强化学习,所以它能打造出全世界审美最好的图片社区。同样,ACE Studio 的切入点就是跟最顶级音乐人提供工具,这些人的反馈无论对模型还是对 feature 的建议,都帮助我们构建更好的 AI 音乐平台。 Peter:ACE Music 使用开源和免费模型的模式,靠什么赚钱? Joe:我在开源这件事上研究了挺多,发现一个很有趣的现象——Flux 在图片领域的开源上建构了很好的商业模式。首先开源一个小模型,然后半开源一个中模型——效果更好也是开源但商用需要授权许可,再做一个闭源的大模型提供 API。小模型因为开源,大量开发者会替你传播,在各种场景里构建用户习惯。当用户习惯和模型的声量被构建起来后,真正有付费能力的用户不介意花更多钱使用更好的闭源版本。
在 ACE Music 上直接使用这一版模型还是免费的——这是漏斗最上层,让更多人被 involve 进来、对这事情感兴趣,最终形成付费转化。 Peter:按照 Studio 现在的增长趋势,今年全年可能做到 3000 万美元的收入。现在 Studio 的毛利是什么情况? Joe:推理成本很低,因为模型都是自建的,有很好的推理优化框架——每挣 100 块钱大概花五六块钱做推理。营销上大概花 20 块钱,因为要持续找到用户来 onboard,也是持续教育用户的过程。年费是 200 美金,还有一档 264 美金。我们还会卖两年订阅,因为这个领域用户的消费习惯更倾向于买更长周期的产品。 Peter:专业市场天花板在什么高度? Joe:24 年整个音乐专业市场的软硬件售卖加在一起是 150 亿美金,单说软件将近 80 亿美金——各种效果器、音源、插件,加在一起就干一件事:让创作者最终创作出那个 3 分 45 秒的 MP3 音频。而这个过程为什么需要这么复杂的工具链?比如今天用传统数字音乐工作站,光环境 setup 对一个小白来讲可能就花一周时间。这些所有东西加在一起一年能卖 150 亿美金,ACE Studio 未来是否至少可以吃下这个市场的 10%、20%?这是我们看到专业市场的保底天花板。 05 ------ 在创业最艰难时, ------------ 看着 Suno 从 day one 做到了世界级水平 ------------------------------ Peter:我们认识快 7 年了,从 19 年天使轮刚开始做 ACE 虚拟歌姬的时候就认识。这些年看到你经历了非常多,是什么让你一直在做这件事情? Joe:一种画面感。从 day one 我就看到了——音乐不应该是少数人垄断的高级形式,而应该是每一个人表达自己的方式,自古以来就是这样。原始人在发明语言之前就已经发明了音乐了,创作音乐本质上就是自己情绪的表达,是根植在人的基因里的本能。
那是什么让音乐创作变成高门槛的事情?不是音乐本身,而是技术发展的形态——以数字信号处理为基础的技术底层建构出来的软硬件生态,倒逼创作者必须先学几年的音乐制作技术和乐理。如果能发明一种全新的方式,让普通人把自己的情绪注入进去,创造出其他人也能欣赏和消费的音乐,这就是会彻底改变的正确的事情。这句话一直在我心里,从来没有变过。 Peter:过往创业经历中有哪些特别痛苦或至暗的时刻? Joe:我们在 22 年初完成了一笔融资,那时候整个 AIGC 的势头还没有起来。我们有一段时间不够 focus——也做过 agent 项目、声音的语音生成、声音陪伴。事后反思,我们做的所有其他决定本质上都是在回避 AI 音乐这个核心问题——是否能用 AI 真正创作出可消费性的音乐。做到 22 年的时候我们已经开始自我怀疑,因为一直做一直没做出来。但那个时候恰恰是这件事情开始 work 的时候——22 年 Suno 第一个版本发布了。
但在那个过程中我们被太多东西分散精力,被牵扯在国内一个相对井底之蛙的状态里,技术 vision 不够丰富。我们既误判了 Suno 训练的成本,又误判了这件事的潜力——看着它一路从名不见经传慢慢一点点突破,变成今天这个样子。那个时候对我来讲极度痛苦——我看到公司有好几个项目在同时做,每一个都很难 100% 投入。同时我反过来问自己到底相信什么,conviction 到底是什么,为什么在做这些事情。我发现它其实是一种恐惧或回避。
在 24 年初,我跟两个合伙人第一次去美国参加一个音乐展,在飞机上讨论了十几个小时,得到一个结论——我们应该把所有项目都砍掉,all in AI music。那个对话和决定非常重要也非常艰难,但做完之后坦白讲从 24 年中开始我们才进入了增长轨道。
这是我最大的成长——可能出发过早、长期没有技术变量、长期做不出 traction,从其他路径找出路,但最终发现只是没等到那个技术变量,而别人在你眼前把你的愿景、梦想做到了世界级水平。我们在 24 年才开始反应过来要追赶模型,开始训练自己的音乐大模型。25 年初做了第一次开源,那个模型当时是开源领域的 SOTA,但跟 Suno 最好的模型还有巨大差距。再到今天 26 年初我们第二版开源模型达到了很接近 Suno 的水平。 Peter:如果回到两年前,你会对当时的自己或者想做同样事情的人有什么建议? Joe:第一尽快出海,第二尽快跟世界上最优秀、最前沿的一帮人混在一起。跟你的用户、跟你的技术领先者离得越快越近越好。 06 ------ 对于 AI 音乐来说, --------------- 个性化才是最重要的竞争要素 ----------------- Joe:今天大家能看到 AI 生成的音乐在质量上对普通人来讲已经跟专业人士做出来的没有区别了,但为什么今天 Suno 或者所有 AI 生成的音乐在互联网上还没有打造出一个超级明星、一个创作者为中心的 IP? Joe:比如像土摇滚 94 年红磡那种风格——窦唯、张楚、唐朝乐队的那种感觉,今天用 AI 能生成吗?生成不了。生成出来的东西可能过于完美和统一了,一个模型它最终会去拟合一个分布,但人类喜欢的东西的分布是极度多样性的。
我前段时间刷 Instagram,看到一个很火的网红歌手参加美国达人秀。他的歌是一个非常机器、有点 hiphop 的 beat,然后唱的就是说话一样的念词——非常尴尬地站在舞台上说话,也不是激昂的 rap。但他在 Instagram 上有几百万粉丝,内容在 Spotify 上销量都非常好。这就是典型的个性化内容,今天让任何一个 AI 音乐模型不去进行专门的微调都很难生成出来。
所以我们想在基模型上构建大量 Lora,每个人可以把自己的个性引入进来。长期来讲 AI 赋能音乐一定走向 personalized,而不是所有人都统一听 Suno 生成出来的那种全部很华丽的东西。 Peter:对于传统音乐分发渠道,核心价值会不会因为 AI 音乐的普及而被颠覆? Joe:一定会的。音乐流媒体平台的巨大成本来自版权,而这个版权是存量市场——人类的心智面积就这么多,占领了心智面积就可以持续产生收入。但这也意味着行业迭代更新相对缓慢、创新更难、普通人参与方式更少。AI 完全可以打破这一点——比如它可以让老 IP 被重演。今天 AI Remix,你可以把任何一个名人的歌送进去模型 Remix 成你喜欢的样子,消费音乐的方式已经变了,创作也是一种消费了。传统流媒体平台要不要重新定义人跟音乐的交互方式?要不要重塑产品形态或商业模式?如果重塑了,是否会得罪已有的版权方?这就是老商业模式很难转型的原因。 Peter:你自己会去涉及内容分发环节吗? Joe:一定会的。ACE Music day one 就是一个创作跟消费的社区,会逐渐跟 ACE Studio 打通。我们认为未来的 AI 音乐创作跟消费是一体化的,从 day one 就应该做在一起。 Peter:对于 AI 音乐来说,长期来看最重要的竞争要素是什么? Joe:我觉得是某种形式的用户 IP 或用户的个性化资产。比如声音——我们听了那么多歌,问周围普通人最喜欢的音乐为什么喜欢,可能 90% 是关注歌手的演唱,声音构建了音乐一致性的个性或风格。如何保有音乐里的个性化资产——保有声音、vocal,持续创造统一唱腔、统一风格的内容,在互联网上构建长期 IP 和粉丝忠诚度——这件事长期来讲肯定是最重要的竞争要素。 Peter:你们为什么选择在 LA 而不是硅谷? Joe:首先市场在美国或欧洲,所以我们一定要跟市场离得更近。当时在选湾区还是洛杉矶,其实就是靠近资本更多还是靠近用户更多。对我们来讲,靠近用户这件事更本质。洛杉矶是全球音乐制作的中心,格莱美在这里,我们所在的位置名字就叫 Studio City——大量的影视、音乐 studio 都在这。搬过来后在这个房子里接待用户,很多格莱美获奖者都已经接待了不下十次,他们过来坐坐聊一下,我们给他看新功能、问他使用体验,大家非常近。 Peter:在 2026 年,对于 ACE 来说最重要的几件事情是什么? Joe:最重要的事情是把 ACE Music 跟 ACE Studio 的完整生态打通,变成一个统一的开放的 AI 音乐生产平台——真正形成每个人都能创造出自己个性化音乐的产品,而不仅仅是所有人都创作统一的、好听但没有个性的音乐。
这里面有很多手段——比如用 agent 去创作音乐,用 agent 帮你 plan 创作 idea,到每一个环节应该用什么模型去排列组合;比如模型的自主训练,每个人都可以 fine tune 自己的模型,host 自己的模型甚至分享;比如音乐的多模态化——我们认为未来的音乐一定是视频的,每个音乐都应该有一个对应的视频,对已有视频配上合理的音乐也是目前没被解决的问题。 Peter:如果 ACE 成功了,10 年以后行业会是什么样子? Joe:AI 会彻头彻尾地改变音乐产业——音乐如何被消费、如何被生产、如何在线下场景里跟人互动、你和偶像如何互动、如何社交——所有方方面面都会被 AI 全部重构。如果 ACE 有幸成为这里面最重要的生态系统,来接管音乐的产生、分发、消费甚至线下演艺,那么它将是一个至少几千亿美金以上的基础设施。