← 回總覽

token 级,精准控制生成长度:3B 模型击败 GPT 5.4、Claude

📅 2026-05-08 12:12 新智元 人工智能 1 分鐘 709 字 評分: 88
LenVM 长度控制 价值预训练 Token 级建模 强化学习
📌 一句话摘要 LenVM 将生成长度建模转化为 token 级价值估计问题,实现了无需标注、三轴可扩展的价值预训练,3B 开源模型在精确长度控制上全面击败 GPT-5.4、Claude-Opus-4-6 等顶级闭源模型。 📝 详细摘要 本文介绍了由 UC Santa Barbara 和 Apple 等机构提出的 Length Value Model(LenVM),其核心创新在于将生成长度建模转化为强化学习中的价值估计问题。通过对每个 token 分配固定负奖励,LenVM 在每一个解码步都拥有明确的「剩余长度」量化估计。该训练范式天然具备免标注、信号密集、无偏和可扩展四大特性,沿模型规模

Title: Welcome to BestBlogs - BestBlogs.dev

URL Source: https://www.bestblogs.dev/article/072e516c?amp%3Butm_medium=feed&%3Butm_campaign=resources&%3Bentry=rss_article_item

Warning: This page contains shadow DOM that are currently hidden, consider enabling shadow DOM processing.

Markdown Content: Sign in or create an account to discover the right content for you

or continue with email

Email

New here? An account is created automatically. The code is valid for 10 minutes.

Verification Code

First-time login will automatically create an account. By continuing, you agree to our Terms of Service and Privacy Policy.

查看原文 → 發佈: 2026-05-08 12:12:00 收錄: 2026-05-08 20:00:02

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。