← 回總覽

今日开源:PrismAudio、JoyAI-LLM Flash 及多项前沿 AI 开源项目速递

📅 2026-03-25 18:30 机器之心SOTA模型 人工智能 1 分鐘 1167 字 評分: 85
AI开源 PrismAudio 大语言模型 强化学习 机器人
📌 一句话摘要 本文汇总了近期开源的 6 个前沿 AI 项目,涵盖视频转音频生成、MoE 语言模型、机器人 VLA 模型及编译器优化等关键技术领域。 📝 详细摘要 本文精选并介绍了 6 个具有代表性的开源 AI 项目,包括首个强化学习驱动的视频转音频框架 PrismAudio、高效 MoE 模型 JoyAI-LLM Flash、人形机器人 VLA 模型 Psi-Zero,以及 MagiCompiler、SparseRL 和 Towards-On-Policy-SFT 等技术框架。这些项目展示了当前 AI 在多模态生成、模型效率优化及强化学习应用方面的最新进展,为开发者和研究人员提供了重要的

📌 一句话摘要

本文汇总了近期开源的 6 个前沿 AI 项目,涵盖视频转音频生成、MoE 语言模型、机器人 VLA 模型及编译器优化等关键技术领域。

📝 详细摘要

本文精选并介绍了 6 个具有代表性的开源 AI 项目,包括首个强化学习驱动的视频转音频框架 PrismAudio、高效 MoE 模型 JoyAI-LLM Flash、人形机器人 VLA 模型 Psi-Zero,以及 MagiCompiler、SparseRL 和 Towards-On-Policy-SFT 等技术框架。这些项目展示了当前 AI 在多模态生成、模型效率优化及强化学习应用方面的最新进展,为开发者和研究人员提供了重要的技术参考。

💡 主要观点

- PrismAudio 引入强化学习与四维 CoT 规划 该框架通过语义、时间、美学和空间四个维度的 CoT 模块,结合针对性奖励函数,实现了视频转音频任务的多维度推理优化。

JoyAI-LLM Flash 优化推理性能与成本 作为一款 MoE 架构模型,其通过 Muon 优化器训练,在保持低延迟和低成本的同时,显著提升了前沿知识、推理和编码能力。
Psi-Zero 实现人形机器人灵巧操控 该 VLA 模型通过大规模人类视频学习语义,并结合少量真实机器人数据微调,支持长水平灵巧运动操控。
系统级编译器与训练框架创新 MagiCompiler 解决内存墙瓶颈,SparseRL 探索稀疏 CUDA 生成,Towards-On-Policy-SFT 弥合了 SFT 与 RL 的性能差距。

💬 文章金句

- PrismAudio 将单步推理分解为四个专门的 CoT 模块——语义、时间、美学和空间,每个模块都有针对性的奖励函数。

  • Psi-Zero 模型能够通过微调少至 80 条轨迹来获取新的长水平灵巧运动操控技能。
  • Towards-On-Policy-SFT 引入了分布判别理论(DDT),用于解释和量化数据与模型诱导分布之间的对齐。

📊 文章信息

AI 评分:85

来源:机器之心SOTA模型

作者:机器之心SOTA模型

分类:人工智能

语言:中文

阅读时间:6 分钟

字数:1314

标签: AI开源, PrismAudio, 大语言模型, 强化学习, 机器人

阅读完整文章

查看原文 → 發佈: 2026-03-25 18:30:00 收錄: 2026-03-25 22:00:35

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。