Hugging Face 正式发布 TRL v1,这是一个包含超过 75 种方法的综合性库,支持包括 SFT、DPO 和 GRPO 在内的开源模型后训练。
📝 详细摘要
Hugging Face 的 CEO Clement Delangue 宣布了 TRL v1 的发布。这次重大更新凝聚了 6 年的开发成果,打造出一个面向未来的库,支持超过 75 种方法,包括 SFT、DPO、GRPO 和异步 RL。此次发布顺应了行业趋势,即企业正从依赖私有 API 转向自托管开源模型,以实现更好的控制权和成本效益。
📊 文章信息
AI 评分:87
来源:clem 🤗(@ClementDelangue)
作者:clem 🤗
分类:人工智能
语言:英文
阅读时间:2 分钟
字数:258
标签: HuggingFace, TRL, 开源, LLM, 后训练