← 回總覽

ICLR 2026|小红书多模态推理大模型 Vision‑R1 :实现图文内容的深度逻辑推理与理解

📅 2026-03-10 10:03 小红书技术REDtech 人工智能 2 分鐘 1261 字 評分: 89
多模态大模型 逻辑推理 思维链 (CoT) 强化学习 PTST
📌 一句话摘要 小红书发布 Vision-R1 多模态推理大模型,通过自动化 CoT 数据生成与渐进式思维抑制训练,使 7B 模型在数学推理上比肩 OpenAI o1。 📝 详细摘要 本文介绍了小红书技术团队在多模态逻辑推理领域的最新研究成果 Vision-R1。针对多模态大模型(MLLM)在复杂推理中面临的高质量数据稀缺及强化学习中的“过度思考”优化难题,团队提出了两大核心创新:一是“模态桥接”方法,通过自动化流水线生成了 200K 条高质量多模态 CoT 冷启动数据;二是“渐进式思维抑制训练(PTST)”,通过动态约束推理长度,引导模型先内化核心逻辑再扩展复杂思维。实验证明,Visio

📌 一句话摘要

小红书发布 Vision-R1 多模态推理大模型,通过自动化 CoT 数据生成与渐进式思维抑制训练,使 7B 模型在数学推理上比肩 OpenAI o1。

📝 详细摘要

本文介绍了小红书技术团队在多模态逻辑推理领域的最新研究成果 Vision-R1。针对多模态大模型(MLLM)在复杂推理中面临的高质量数据稀缺及强化学习中的“过度思考”优化难题,团队提出了两大核心创新:一是“模态桥接”方法,通过自动化流水线生成了 200K 条高质量多模态 CoT 冷启动数据;二是“渐进式思维抑制训练(PTST)”,通过动态约束推理长度,引导模型先内化核心逻辑再扩展复杂思维。实验证明,Vision-R1-7B 在 MathVista 等多个权威基准测试中表现卓越,显著缩小了开源模型与顶尖商业模型在多模态推理上的差距。

💡 主要观点

- 创新性提出模态桥接方法,实现多模态 CoT 数据的自动化规模化生产。 利用现有多模态模型将图像转化为详细文本描述,再由 DeepSeek-R1 提取高质量思维链,解决了人工标注成本高且难以捕捉真实思维动态的痛点。

引入渐进式思维抑制训练(PTST),有效破解多模态强化学习中的过度思考难题。 仿照人类认知规律,在训练初期约束推理长度以稳固核心逻辑,后期逐步放开限制,使模型在保持准确性的同时涌现出复杂的逻辑推理能力。
通过“小模型+优算法”的范式,使 7B 参数模型在特定领域实现性能逆袭。 Vision-R1-7B 在 MathVista 几何与算术推理子任务中表现突出,准确率接近 OpenAI o1,证明了算法优化在提升推理效率方面的巨大潜力。

💬 文章金句

- Vision-R1 以 200K 条无人工标注的高质量多模态 CoT 冷启动数据打底,有效解决多模态大模型‘过度思考’难题。

  • 直接对冷启动后的多模态大模型使用强化学习训练会导致‘过度思考优化问题’,模型倾向于生成冗余重复的推理过程。
  • 冷启动提供‘认知种子’,PTST 实现‘思维修剪’,二者协同使模型获得最优的推理效率-准确性平衡。
  • 当机器开始学会在视觉认知中自我质疑、动态修正,我们正见证着多模态智能从‘感知再现’走向‘思维涌现’的历史性拐点。

📊 文章信息

AI 评分:89

来源:小红书技术REDtech

作者:小红书技术REDtech

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3747

标签: 多模态大模型, 逻辑推理, 思维链 (CoT), 强化学习, PTST

阅读完整文章

查看原文 → 發佈: 2026-03-10 10:03:00 收錄: 2026-03-10 22:00:46

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。