ICLR 2026｜小红书多模态推理大模型 Vision‑R1 ：实现图文内容的深度逻辑推理与理解

📌 一句话摘要

小红书发布 Vision-R1 多模态推理大模型，通过自动化 CoT 数据生成与渐进式思维抑制训练，使 7B 模型在数学推理上比肩 OpenAI o1。

📝 详细摘要

本文介绍了小红书技术团队在多模态逻辑推理领域的最新研究成果 Vision-R1。针对多模态大模型（MLLM）在复杂推理中面临的高质量数据稀缺及强化学习中的“过度思考”优化难题，团队提出了两大核心创新：一是“模态桥接”方法，通过自动化流水线生成了 200K 条高质量多模态 CoT 冷启动数据；二是“渐进式思维抑制训练（PTST）”，通过动态约束推理长度，引导模型先内化核心逻辑再扩展复杂思维。实验证明，Vision-R1-7B 在 MathVista 等多个权威基准测试中表现卓越，显著缩小了开源模型与顶尖商业模型在多模态推理上的差距。

💡 主要观点

- 创新性提出模态桥接方法，实现多模态 CoT 数据的自动化规模化生产。 利用现有多模态模型将图像转化为详细文本描述，再由 DeepSeek-R1 提取高质量思维链，解决了人工标注成本高且难以捕捉真实思维动态的痛点。

引入渐进式思维抑制训练（PTST），有效破解多模态强化学习中的过度思考难题。 仿照人类认知规律，在训练初期约束推理长度以稳固核心逻辑，后期逐步放开限制，使模型在保持准确性的同时涌现出复杂的逻辑推理能力。

通过“小模型+优算法”的范式，使 7B 参数模型在特定领域实现性能逆袭。 Vision-R1-7B 在 MathVista 几何与算术推理子任务中表现突出，准确率接近 OpenAI o1，证明了算法优化在提升推理效率方面的巨大潜力。

💬 文章金句

- Vision-R1 以 200K 条无人工标注的高质量多模态 CoT 冷启动数据打底，有效解决多模态大模型‘过度思考’难题。

直接对冷启动后的多模态大模型使用强化学习训练会导致‘过度思考优化问题’，模型倾向于生成冗余重复的推理过程。
冷启动提供‘认知种子’，PTST 实现‘思维修剪’，二者协同使模型获得最优的推理效率-准确性平衡。
当机器开始学会在视觉认知中自我质疑、动态修正，我们正见证着多模态智能从‘感知再现’走向‘思维涌现’的历史性拐点。

📊 文章信息

AI 评分：89

来源：小红书技术REDtech

作者：小红书技术REDtech

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3747

标签：多模态大模型, 逻辑推理, 思维链 (CoT), 强化学习, PTST

阅读完整文章

ICLR 2026｜小红书多模态推理大模型 Vision‑R1 ：实现图文内容的深度逻辑推理与理解

🤖 問 AI