今日开源：PrismAudio、JoyAI-LLM Flash 及多项前沿 AI 开源项目速递

📌 一句话摘要

本文汇总了近期开源的 6 个前沿 AI 项目，涵盖视频转音频生成、MoE 语言模型、机器人 VLA 模型及编译器优化等关键技术领域。

📝 详细摘要

本文精选并介绍了 6 个具有代表性的开源 AI 项目，包括首个强化学习驱动的视频转音频框架 PrismAudio、高效 MoE 模型 JoyAI-LLM Flash、人形机器人 VLA 模型 Psi-Zero，以及 MagiCompiler、SparseRL 和 Towards-On-Policy-SFT 等技术框架。这些项目展示了当前 AI 在多模态生成、模型效率优化及强化学习应用方面的最新进展，为开发者和研究人员提供了重要的技术参考。

💡 主要观点

- PrismAudio 引入强化学习与四维 CoT 规划 该框架通过语义、时间、美学和空间四个维度的 CoT 模块，结合针对性奖励函数，实现了视频转音频任务的多维度推理优化。

JoyAI-LLM Flash 优化推理性能与成本 作为一款 MoE 架构模型，其通过 Muon 优化器训练，在保持低延迟和低成本的同时，显著提升了前沿知识、推理和编码能力。

Psi-Zero 实现人形机器人灵巧操控 该 VLA 模型通过大规模人类视频学习语义，并结合少量真实机器人数据微调，支持长水平灵巧运动操控。

系统级编译器与训练框架创新 MagiCompiler 解决内存墙瓶颈，SparseRL 探索稀疏 CUDA 生成，Towards-On-Policy-SFT 弥合了 SFT 与 RL 的性能差距。

💬 文章金句

- PrismAudio 将单步推理分解为四个专门的 CoT 模块——语义、时间、美学和空间，每个模块都有针对性的奖励函数。

Psi-Zero 模型能够通过微调少至 80 条轨迹来获取新的长水平灵巧运动操控技能。
Towards-On-Policy-SFT 引入了分布判别理论（DDT），用于解释和量化数据与模型诱导分布之间的对齐。

📊 文章信息

AI 评分：85

来源：机器之心SOTA模型

作者：机器之心SOTA模型

分类：人工智能

语言：中文

阅读时间：6 分钟

字数：1314

标签： AI开源, PrismAudio, 大语言模型, 强化学习, 机器人

阅读完整文章

今日开源：PrismAudio、JoyAI-LLM Flash 及多项前沿 AI 开源项目速递

🤖 問 AI