小红书发布 Vision-R1 多模态推理大模型,通过自动化 CoT 数据生成与渐进式思维抑制训练,使 7B 模型在数学推理上比肩 OpenAI o1。
📝 详细摘要
本文介绍了小红书技术团队在多模态逻辑推理领域的最新研究成果 Vision-R1。针对多模态大模型(MLLM)在复杂推理中面临的高质量数据稀缺及强化学习中的“过度思考”优化难题,团队提出了两大核心创新:一是“模态桥接”方法,通过自动化流水线生成了 200K 条高质量多模态 CoT 冷启动数据;二是“渐进式思维抑制训练(PTST)”,通过动态约束推理长度,引导模型先内化核心逻辑再扩展复杂思维。实验证明,Vision-R1-7B 在 MathVista 等多个权威基准测试中表现卓越,显著缩小了开源模型与顶尖商业模型在多模态推理上的差距。
💡 主要观点
- 创新性提出模态桥接方法,实现多模态 CoT 数据的自动化规模化生产。 利用现有多模态模型将图像转化为详细文本描述,再由 DeepSeek-R1 提取高质量思维链,解决了人工标注成本高且难以捕捉真实思维动态的痛点。
💬 文章金句
- Vision-R1 以 200K 条无人工标注的高质量多模态 CoT 冷启动数据打底,有效解决多模态大模型‘过度思考’难题。
- 直接对冷启动后的多模态大模型使用强化学习训练会导致‘过度思考优化问题’,模型倾向于生成冗余重复的推理过程。
- 冷启动提供‘认知种子’,PTST 实现‘思维修剪’,二者协同使模型获得最优的推理效率-准确性平衡。
- 当机器开始学会在视觉认知中自我质疑、动态修正,我们正见证着多模态智能从‘感知再现’走向‘思维涌现’的历史性拐点。
📊 文章信息
AI 评分:89
来源:小红书技术REDtech
作者:小红书技术REDtech
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3747
标签: 多模态大模型, 逻辑推理, 思维链 (CoT), 强化学习, PTST