SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (21615)
★ 收藏 (0)
🤖 人工智能 (11168)
📊 商业科技 (4461)
💻 软件编程 (1685)
📁 个人成长 (1605)
📁 生活文化 (857)
📁 媒体资讯 (827)
📁 投资财经 (529)
🎨 产品设计 (408)
📁 AI 产品 (39)
📁 体育运动 (28)
篩選中:
🏷️ 奖励微调
共 1 篇
✕ 清除篩選
21617
全部文章
21615
未讀
204
今日新增
0
收藏
📡 Poller
最後抓取:
25 分鐘前
(06-08 20:00)
BestBlogs 精選 (21582)
🏷️ 熱門標籤
AI Agent
2157
AI 编程
985
Anthropic
981
Claude Code
916
AI 智能体
780
OpenAI
745
LLM
674
开源
574
OpenClaw
557
Claude
557
AI
517
AI 安全
490
开发者工具
432
Codex
416
软件工程
398
具身智能
334
Agent
334
个人成长
331
GitHub
321
生产力
315
●
ACL 2026 Findings | 浙大提出 GFT:On-Policy SFT 视角下的奖励微调
📌 一句话摘要 浙大团队提出 GFT 框架,从训练动力学角度将 SFT 改造为 on-policy 的奖励微调,通过组内优势学习和动态系数修正解决 SFT 单路径依赖和梯度不稳定问题。 📝 详细摘要 本文是浙大团队在 ACL 2026 Findings 上发表的工作 GFT 的技术解读。文章从训
📅 2026-05-18 00:00
(21 天前)
青稞AI
人工智能
2 分鐘
★ 86
GFT
SFT
奖励微调
后训练